Alibaba представила новую ИИ-модель Qwen3-ASR-Flash, предназначенную для расшифровки аудиозаписей.
По точности распознавания речи она превосходит такие модели, как Gemini-2.5-Pro и GPT-4o. Qwen способна расшифровывать любые аудио, включая песни и некачественные записи с сильным фоновым шумом.
Модель поддерживает 11 языков, в том числе русский и английский.
Qwen3-ASR-Flash можно протестировать бесплатно на HuggingFace и ModelScope. Разработчики также могут интегрировать её в свои сервисы. Стоимость расшифровки составляет $0,000032 за секунду аудио.