Microsoft разработала новый генератор речи на основе искусственного интеллекта (ИИ), который настолько убедителен, что просто не может быть выпущен для широкой публики.
VALL-E 2 — это генератор текста в речь (text to speech, или TTS), который может воспроизводить голос человека, используя всего несколько секунд аудио.
Исследователи Microsoft заявили в статье, опубликованной 17 июня на сервере препринтов arXiv, что VALL-E 2 способен генерировать «точную, естественную речь, точно повторяющую голос исходного говорящего, сравнимую с человеческой речью». Иными словами, новый генератор голоса на основе ИИ настолько убедителен, что его можно принять за настоящего человека — по крайней мере, по мнению его создателей.
«VALL-E 2 представляет собой последний прорыв в языковых моделях нейронных кодеков, который является вехой в синтезе речи из текста без обучения (TTS), впервые достигнув уровня человеческой производительности, — написали исследователи в статье. — Более того, VALL-E 2 последовательно синтезирует высококачественную речь даже для предложений, которые традиционно сложны из-за своей сложности или повторяющихся фраз.»
В данном контексте человеческая производительность означает, что речь, сгенерированная VALL-E 2, соответствует или превосходит качество человеческой речи в тестах, использованным Microsoft.
Этот механизм искусственного интеллекта способен на это благодаря включению двух ключевых функций: «Repetition Aware Sampling»/«Выборка с учётом повторения» и «Grouped Code Modeling»/«Моделирование группового кода».
Repetition Aware Sampling улучшает способность ИИ преобразовывать текст в речь, учитывая повторения «токенов» — небольших единиц языка, таких как слова или их части — предотвращая бесконечные циклы звуков или фраз в процессе декодирования. Другими словами, эта функция помогает разнообразить образец речи VALL-E 2, делая его звучание более плавным и естественным.
С другой стороны, Grouped Code Modeling повышает эффективность за счёт сокращения длины последовательности — или числа отдельных токенов, которые модель обрабатывает в одной входной последовательности. Это ускоряет процесс генерации речи VALL-E 2 и помогает управлять сложностями, связанными с обработкой длинных последовательностей звуков.
Исследователи использовали аудиосэмплы из библиотек речи LibriSpeech и VCTK для оценки того, насколько хорошо VALL-E 2 соответствует записям голосов человеческих дикторов. Они также использовали ELLA-V — оценочную платформу, разработанную для измерения точности и качества сгенерированной речи — чтобы определить, насколько эффективно VALL-E 2 справляется с более сложными задачами генерации речи.
«Наши эксперименты, проведенные на наборах данных LibriSpeech и VCTK, показали, что VALL-E 2 превосходит предыдущие системы «zero-shot TTS» по параметрам устойчивости речи, естественности и схожести со спикером, — написали исследователи. — Это первая модель, согласно тестам, достигшая человеческой производительности.»
В статье исследователи отметили, что качество выходных данных VALL-E 2 зависит от длины и качества речевых промптов — а также от окружающих факторов, таких как фоновый шум.
«Исключительно научный проект»
Несмотря на свои возможности, Microsoft не выпустит VALL-E 2 для широкой публики из-за потенциальных рисков злоупотребления. Это совпадает с растущей обеспокоенностью по поводу клонирования голоса и технологии дипфейков. Другие компании, занимающиеся искусственным интеллектом, такие как OpenAI, наложили аналогичные ограничения на свои голосовые технологии.
«VALL-E 2 является исключительно научным проектом. На данный момент у нас нет планов интегрировать VALL-E 2 в продукт или расширять к нему доступ для широкой публики, — написали исследователи в блоге. — Модель может нести потенциальные риски злоупотребления, такие как обман идентификации по голосу или подражание конкретному диктору.»
Тем не менее, они предложили, что технологии голосового ИИ могут найти практическое применение в будущем.
«VALL-E 2 может синтезировать речь, сохраняющую идентичность говорящего, и может использоваться для образовательных целей, развлечений, журналистики, авторских контентов, доступности, интерактивных систем голосового ответа, перевода, чат-ботов и т.д.», — добавили исследователи.
«Если модель будет обобщена для неизвестных дикторов в реальном мире, должен быть разработан протокол, который гарантирует, что диктор одобряет использование своего голоса, а также модель обнаружения синтезированной речи», — продолжили они.