Специалисты в области искусственного интеллекта разработали новую технологию, которая позволяет с высокой точностью распознавать эмоции человека по его голосу в режиме реального времени.

Эта технология, получившая название Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER), была создана учёными из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ. Она была протестирована на одном из самых сложных для анализа наборов данных — IEMOCAP (Interactive Emotional Dyadic Motion Capture). Результаты показали, что точность распознавания эмоций составила 74,6%, что значительно превосходит результаты большинства существующих методов.

Технология работает следующим образом: сначала она определяет ключевые характеристики речи, а затем анализирует звуки голоса, такие как громкость и тональность. Эти данные объединяются с помощью специального механизма, который эффективно связывает общие характеристики речи с её деталями, что позволяет более точно определять эмоциональное состояние говорящего.

Эта технология решает проблему несоответствия между аудиоданными, на которых обучаются SSL-модели, и эмоциональными наборами данных с различной интонацией и интенсивностью. Она может быть полезна в различных областях, где необходимо анализировать эмоции в режиме реального времени, таких как голосовые чат-боты, колл-центры, а также в приложениях для мониторинга психологического здоровья.

Исходный код технологии доступен в открытом доступе, что позволяет другим исследователям использовать её для проведения дополнительных экспериментов и проверки её универсальности и применимости в различных условиях. Например, модель можно обучить на русскоязычных эмоциональных корпусах и затем использовать в голосовых помощниках и контакт-центрах.

Темы и теги

Россия Наука и Технологии

распознавание эмоция искусственный интеллект Сбербанк Институт AIRI МФТИ технология ученый россия cross-attention