Китай. Представлена нейросеть Qwen 2.5-Max, превосходящая DeepSeek V3 по 11 показателями

Китайская технологическая компания Alibaba выпустила новую версию своей модели искусственного интеллекта Qwen 2.5-Max, которая, по словам представителей компании, превзошла высоко оцененную модель DeepSeek-V3. Изначально это не только многофункциональный чат-бот, но и генератор фото и видео.

Согласно проведенным компанией тестам, Qwen 2.5-Max превосходит китайский чат-бот DeepSeek V3 и чат-бот Llama-3.1-405B (принадлежит Meta, признанной в России экстремистской и запрещенной) по 11 показателям.

«Наша модель продемонстрировала значительные преимущества в большинстве тестов», — заверил разработчик.

Компания стремится улучшать мышление и логические рассуждения в больших языковых моделях через «инновационное» обучение с подкреплением, что обещает позволить ИИ-моделям превзойти человеческий интеллект, говорится в заявлении команды чат-бота.

«Qwen 2.5-Max превосходит... почти по всем показателям GPT-4o, DeepSeek-V3 и Llama-3.1-405B», — говорится в объявлении облачного подразделения Alibaba, опубликованном в официальном аккаунте WeChat, со ссылкой на самые передовые модели искусственного интеллекта с открытым исходным кодом OpenAI и Meta*.

Выпуск 10 января искусственного интеллекта DeepSeek на базе модели DeepSeek-V3, а также выпуск 20 января его модели R1 потрясли Кремниевую долину и привели к падению акций технологических компаний, поскольку низкие затраты китайского стартапа на разработку и эксплуатацию заставили инвесторов усомниться в необходимости больших расходов ведущих компаний в области искусственного интеллекта в США.

Однако успех DeepSeek также привел к тому, что внутренние конкуренты в Китае начали активно совершенствовать свои собственные модели искусственного интеллекта.

Через два дня после выпуска DeepSeek-R1 владелец TikTok ByteDance выпустил обновление своей флагманской модели ИИ, которая, по его словам, превзошла поддерживаемую Microsoft модель OpenAI o1 в AIME — эталонном тесте, который измеряет, насколько хорошо модели ИИ понимают и реагируют на сложные инструкции.

Это перекликается с заявлением DeepSeek о том, что ее модель R1 успешно конкурирует с GPT-4o1 от OpenAI по нескольким показателям производительности.

DeepSeek, которая попала на первые строчки мировых СМИ в начале недели, сообщила о запуске новейшей ИИ-модели Janus-Pro-7B. После запуска Janus-Pro-7B и успеха чат-бота DeepSeek компания Nvidia подешевела на 600 млрд долларов. Совокупная стоимость частных компаний США упала более чем на $1 трлн за один день.

Китай пустит по миру американскую компанию Nvidia :)

Qwen
Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model
QWEN CHAT API DEMO DISCORD It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling extremely large models, whether they are dense or Mixture-of-Expert (MoE) models. Many critical details regarding this scaling process were only disclosed with the recent release of DeepSeek V3. Concurrently, we are developing Qwen2.