Amazon сделали крупнейшую в мире ИИ-модель преобразования текста в речь с «зачатками разума»

Исследователи из Amazon обучили самую большую в истории модель преобразования текста в речь, которая, по их словам, демонстрирует «зарождающуюся способность произносить даже сложные предложения, так, что это звучит вполне естественно».

Технологии постоянно совершенствуются, но исследователи надеются, что уровень развития языковых моделей будет повышаться по мере достижения определенного размера, и, со временем станут гораздо более надежными и универсальными, способными выполнять задачи, которым они не были обучены.

Это не значит, что они обретают разум, просто после определенного момента их производительность в некоторых задачах меняется. Команда Amazon AGI думала, что то же самое может произойти по мере роста моделей преобразования текста в речь, и их исследование показывает, что это действительно так.

Новая модель называется Big Adaptive Streamable TTS with Emergent abilities или BASE TTS. Самая большая версия модели использует 100 тыс. часов аудиозаписей из открытых источников, 90% из которых на английском, а остальные — на немецком, голландском и испанском языках.

Обладая 980 млн параметров, BASE-large является самой большой моделью в этой категории. Исследователи также обучили модели с 400 млн и 150 млн параметров на основе 10 тыс. и 1 тыс. часов аудиозаписей соответственно. Идея состоит в том, что если одна из этих моделей демонстрирует новые навыки, а другая — нет, то существует диапазон, в котором такое поведение начинает проявляться.

Как оказалось, модель среднего размера показала искомый скачок в возможностях не только в качестве речи (оно стало лучше, но всего на пару пунктов), но и в наборе возникающих способностей, которые они наблюдали и измеряли.

«Модель способна выполнять ряд сложных задач, например разбор сложносочиненных предложений, постановка фразового ударения в составных существительных, создание эмоциональной речи или речи шепотом, или правильное произношение иностранных слов или знаков препинания, таких как “@”. Причем ни одну из них BASE TTS не обучена выполнять», — пишут авторы.

Такие речевые особенности обычно ставят в тупик системы преобразования текста в речь, которые неправильно произносят, пропускают слова, используют неестественную интонацию или совершают другие ошибки. У BASE TTS все еще были проблемы, но она справилась с ними гораздо лучше, чем ее современники, например, Tortoise и VALL-E.

Примечательно, что эта модель является «потоковой», как следует из названия, что означает, что ей не нужно генерировать целые предложения сразу. Это происходит постепенно и с относительно низким битрейтом. На сайте языковой модели есть масса примеров того, как она совершенно естественно произносит даже сложные тексты. Конечно, они были тщательно отобраны исследователями, но все равно это впечатляет.

Поскольку три модели BASE TTS имеют общую архитектуру, очевидно, что размер самой модели и объем обучающих данных определяют ее способность справляться со сложными задачами. Следует помнить, что это все еще экспериментальная, а не коммерческая разработка. Дальнейшие исследования должны будут определить точку возникновения новых способностей, а также то, как эффективно обучать полученную модель.

Похоже, что в 2024 году модели преобразования текста в речь могут стать новым технологическим прорывом. Однако нельзя отрицать преимущества этой технологии, в частности, для обеспечения доступности к информации для пользователей с ограниченными возможностями.

До этого Марка Цукерберга обвинили в безответственном подходе к искусственному интеллекту после того, как он пообещал создать мощную систему ИИ, не уступающую по уровню интеллекта человеку. Глава Meta* (запрещена на территории Российской Федерации) заявил, что компания попытается создать систему искусственного интеллекта общего назначения с открытым исходным кодом (AGI), что означает, что она будет доступна разработчикам за пределами компании.