Microsoft выпустила бесплатную нейросеть VibeVoice. Она создает аудио длиной 90 минут с диалогами на 4 человек

Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь.

Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты.

VibeVoice-1.5B поддерживает только английский и китайский языки.

Пример работы нейросети с ИИ-разговором, в котором участвуют несколько человек

Модель выложена на GitHub. Для её работы потребуется минимум 7 ГБ видеопамяти, поэтому подойдёт любая видеокарта с 8 ГБ, например RTX 3060.

Также протестировать VibeVoice-1.5B можно бесплатно на отдельном сайте: достаточно вставить текст сценария, выбрать число спикеров и их голоса. [Marktechpost]

Что-то пошло не так

Мы в Telegram

Форум

Избранное

Теги: Новости

(ещё...)

Теги: Новости

(ещё...)

iPhones.ru

Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь. Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты. VibeVoice-1.5B поддерживает только английский и китайский языки. Пример работы нейросети...

До ←
Нейронка подвела? Уилл Смит выложил видео с выступления, где зрители с лишними пальцами и искаженными лицами

Темы и теги

США Наука и Технологии

Microsoft бесплатный нейросеть аудио длина час диалог модель способный аудиокнига длинный

Microsoft выпустила бесплатную нейросеть VibeVoice. Она создает аудио длиной 90 минут с диалогами на 4 человек

Нейронка подвела? Уилл Смит выложил видео с выступления, где зрители с лишними пальцами и искаженными лицами

Темы и теги