Технологию из колонок с «Алисой» смогут использовать во всем мире

Исследователи «Яндекса» впервые подробно рассказали, как устроена нейросетевая технология, которая позволяет голосовым ассистентам распознавать команды даже на фоне сильного шума. Статья с описанием метода принята на крупнейшую международную конференцию по речевым технологиям Interspeech 2025, где также будут представлены работы Microsoft, Google DeepMind и других мировых лидеров индустрии. Подробности — в распоряжении «Инка».

Photo by and machines on Unsplash

Технология уже применяется в умных колонках и ТВ-станциях компании, помогая «Алисе» распознавать команды пользователя, даже если рядом работает пылесос, звучит музыка или идет шум с улицы.


Теперь принципы ее работы стали доступны всему профессиональному сообществу: разработчики со всего мира смогут адаптировать этот подход в собственных голосовых интерфейсах и устройствах.


Ожидается, что это не только ускорит развитие голосовых ассистентов, но и повысит их удобство и надежность.

Главная особенность подхода «Яндекса» — использование нейросетевого attention-механизма, который одновременно анализирует два аудиосигнала: один после шумоподавления, второй после эхоподавления. Система в каждый момент времени выбирает наиболее четкий сигнал для распознавания речи, избегая искажений и повышая точность реакции.

По словам руководителя направления голосовой активации «Яндекса» Дмитрия Солодухи, до сих пор индустрия не имела универсального и стабильного решения, способного одинаково хорошо работать в лаборатории и в реальной жизни. Раскрытие технологии, по его мнению, может значительно упростить путь к созданию более надежных голосовых интерфейсов в самых разных продуктах.