Подразделение Alibaba представила семейство моделей Qwen3, чтобы составить конкуренцию DeepSeek

Компания Qwen выпустила новое семейство языковых моделей Qwen3. Флагманская модель Qwen3-235B-A22B содержит 235 млрд параметров (из которых 22 млрд работают постоянно) и показывает в тестах результаты на уровне DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro. Более компактная модель Qwen3-30B-A3B превосходит предыдущий продукт Qwen — алгоритм QwQ-32B, — несмотря на то, что последняя имеет в 10 раз больше активируемых параметров.

Фото: Qwen

Всего выпущено восемь моделей: две модели с открытыми весами — параметрами обучения (Qwen3-235B-A22B и Qwen3-30B-A3B) и шесть плотных моделей, с несколькими слоями компонентов, разного размера (от Qwen3-0.6B до Qwen3-32B). Все модели обладают контекстным окном от 32K до 128K токенов и доступны на платформах Hugging Face, ModelScope и Kaggle.

Ключевой особенностью Qwen3 является гибридный подход к решению задач с двумя режимами работы: «рассуждение» для сложных задач, и обычная генерация для быстрых ответов на простые вопросы. Это позволяет пользователям контролировать глубину «размышлений» модели в зависимости от задачи и сохранять баланс между стоимостью использования нейросети и качеством ответов.

Модели Qwen3 поддерживают 119 языков и диалектов из различных языковых семей, включая индоевропейские, сино-тибетские, афразийские и другие языки. Также улучшены возможности агентного взаимодействия, программирования и поддержка MCP (Multi-modal Conversational Protocol), который может комбинировать разные формы коммуникации.

Для предобучения Qwen3 использовался датасет размеров в 36 трлн токенов — почти вдвое больше, чем у Qwen2.5 (18 трлн). Благодаря этим улучшениям модели Qwen3 достигают производительности моделей Qwen2.5 с значительно меньшим количеством параметров, а модели «смеси экспертов» по производительности сравнимы с плотными моделями Qwen2.5, хотя используют для генерации ответа всего 10% параметров.