Light mode

Больше не экзотика: исследование аудиодипфейков

  • #ML

О чем материал 

Сравниваем известные модели клонирования голоса и оцениваем их качество в контексте ИБ 

Технологии генеративного ИИ стремительно развиваются: теперь они позволяют синтезировать или клонировать голос, в том числе в режиме реального времени. Это открывает новые возможности — от создания виртуальных дублеров до автоматизации кол-центров. Однако вместе с перспективами появляются и новые угрозы: злоумышленники могут использовать аудиодипфейки для социальной инженерии и обхода систем антифрода.

Мы протестировали актуальные модели клонирования голоса (как коммерческие, так и открытые) и рассказываем, что из этого получилось.

Небольшой спойлер: некоторые open source решения вплотную приближаются по качеству к проприетарным, а местами даже превосходят их.

Методика тестирования

Оценка качества синтезированной речи требует объективных метрик, поэтому вместо субъективного «на слух» мы использовали собственный бенчмарк на базе эмбеддингов из CLAP (аудиоверсию CLIP для изображений). Сравнивая 512-мерные векторные представления оригинального и сгенерированного аудио, мы вычисляли евклидово расстояние между ними: чем оно меньше, тем лучше результат. 

В качестве датасета использовали 30-секундные фрагменты речи разных людей и синтезировали фейковые версии голосов всеми рассматриваемыми инструментами. Тесты проводили на удаленном сервере с видеокартой NVIDIA A4000 (16 ГБ VRAM), 2 ядрами CPU и 10 ГБ RAM. Это минимальная комфортная конфигурация для работы с моделями в нашем исследовании.

Также мы подготовили типовой сценарий диалога, имитирующий звонок мошенников из «кол-центра банка»: приветствие, запрос баланса, проверка транзакций и простая беседа. 

Рисунок 1. Часть скрипта

Полный скрипт разговора можно посмотреть здесь 

Выбор моделей

Мы взяли топовые решения для клонирования голоса, которые появились или существенно обновились за последний год.

Коммерческие сервисы:

  • ElevenLabs (топ-1 на TTS Arena). Проприетарный сервис, отличается простотой интеграции и минимальным количеством артефактов.

Открытые сервисы:

  • Coqui.ai. Включает модели XTTS и you_tts, которые позволяют клонировать голос по короткому образцу и сохранять тембр при смене языка.
  • F5. Локальный синтезатор с расширенными функциями эмоций. Предоставляет высокое качество озвучивания и эмоциональной окраски (иногда наблюдаются проблемы с расстановкой пауз).
  • Zyphra. Свежая разработка с упором на реалистичность сгенерированного голоса.
  • fish-speech. Модель от Fish Audio с акцентом на естественности звучания и низкой задержке. Ориентирована на работу в портативных сценариях.

Кроме того, мы применяли технологии audio superresolution для улучшения качества подделок:

  • voice_fixer: инструмент для очистки и восстановления аудио, помогает убрать шум и артефакты в синтезированном голосе.
  • AudioSR: библиотека для апсемплинга (увеличения частоты дискретизации) — помогает повысить четкость и детализированность аудиозаписи.

Из-за скудности открытых датасетов далеко не все модели поддерживают русский язык. Из коробки он есть только в fish-speech, а под F5 можно найти дотюненные любительские модели, но их качество оставляет желать лучшего

Переходим к тестам

Для наглядности мы отобразили результаты тестов в сниженной размерности (см. рис. 2). Фиолетовая точка на графике соответствует оригинальному голосу, облако вокруг нее — сгенерированным вариантам. Соответственно, чем ближе сгенерированные точки к оригиналу, тем лучше качество клонирования.

Рисунок 2. Результаты тестов

Код векторизации и 3D-проекцию голосов ищите здесь

Ниже приведена сравнительная таблица, показывающая удаленность векторов клонированных голосов от оригинала (см. рис. 3). Тесты показывают, что среди выбранных моделей лидируют ElevenLabs и F5.

Рисунок 3. Удаленность векторов клонированных голосов от оригинала

Далее мы попробовали повысить качество сгенерированного голоса с помощью audio superresolution. Инструмент audio_sr в некоторых случаях улучшал генерацию, а voice_fixer не показал значительных результатов.

Рисунок 4. Результаты тестов с использованием audio_sr и voice_fixer

Выводы

  1. Высококачественную подделку голоса теперь можно выполнить не только через коммерческие API, но и с помощью open source. Скорее всего, интерес злоумышленников к подобным инструментам будет расти.
  2. Лучшие результаты среди открытых сервисов показывает модель F5.
  3. Инструменты для нейроулучшения аудио в некоторых случаях помогают повысить реалистичность сгенерированных семплов.
  4. Модели клонирования голоса можно применять в редтиминге и пентестах: это поможет оценить устойчивость инфраструктуры к голосовым дипфейкам.
  5. Быстрые атаки на основе 30-секундных семплов все чаще дают качественные результаты, что ставит под угрозу системы антифрода и голосовой верификации. Компаниям, разрабатывающим подобные решения, стоит учитывать эволюцию генераторов речи.

Мы дěлаем Positive Research → для ИБ-экспертов, бизнеса и всех, кто интересуется ✽ {кибербезопасностью}