Комментарии 0
...комментариев пока нет
SberDevices представила семейство моделей машинного обучения для распознавания речи и эмоций
Акустические модели можно использовать для подготовки дипломных работ и научных статей. Разработкой занимались команды сервисов GigaChat и SaluteSpeech в SberDevices.
- GigaAM — Audio Foundation Model, предобучена на разнообразной русской речи. Можно использовать для адаптации под разные задачи работы со звуком, в том числе для распознавания речи и эмоций, определения диктора и другие.
- GigaAM-CTC — открытая модель для распознавания запросов на русском языке. Оценка качества на 7 срезах данных (от запросов в «умные» колонки до записей из телефонного канала) показала, что модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
- GigaAM-Emo — акустическая модель, созданная для определения эмоций. По данным SberDevices, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.
Все модели размещены в открытом доступе с некоммерческой лицензией.
Фото на обложке: Unsplash
Telegram-канал, чтобы быть в курсе последних новостей и событий!