Microsoft выпустила бесплатную нейросеть VibeVoice. Она создает аудио длиной 90 минут с диалогами на 4 человек
Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь.
Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты.
VibeVoice-1.5B поддерживает только английский и китайский языки.
Пример работы нейросети с ИИ-разговором, в котором участвуют несколько человек
Модель выложена на GitHub. Для её работы потребуется минимум 7 ГБ видеопамяти, поэтому подойдёт любая видеокарта с 8 ГБ, например RTX 3060.
Также протестировать VibeVoice-1.5B можно бесплатно на отдельном сайте: достаточно вставить текст сценария, выбрать число спикеров и их голоса. [Marktechpost]
