Microsoft выпустила бесплатную нейросеть VibeVoice. Она создает аудио длиной 90 минут с диалогами на 4 человек

Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь.

Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты.

VibeVoice-1.5B поддерживает только английский и китайский языки.


Пример работы нейросети с ИИ-разговором, в котором участвуют несколько человек

Модель выложена на GitHub. Для её работы потребуется минимум 7 ГБ видеопамяти, поэтому подойдёт любая видеокарта с 8 ГБ, например RTX 3060.

Также протестировать VibeVoice-1.5B можно бесплатно на отдельном сайте: достаточно вставить текст сценария, выбрать число спикеров и их голоса. [Marktechpost]

Что-то пошло не так
undefined
iPhones.ru
Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь. Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты. VibeVoice-1.5B поддерживает только английский и китайский языки. Пример работы нейросети...