Лидирующие LLM на начало марта 2025 Консолидация финансового капитала, технологий, выч...

Лидирующие LLM на начало марта 2025

Консолидация финансового капитала, технологий, вычислительных мощностей и лучших умов человечества в развитии ИИ проектов создают невероятный темп научно-технического прогресса в рамках внедрения передовых LLM, что в свою очередь приводит к выравниванию конкуренции и быстрого достижения предела развития в рамках актуальных архитектур.

Во-первых, с осени 2024 стало невозможным определение однозначно доминирующую LLM, где ни одна передовая разработка не имела ультимативных преимуществ так, как это было в начале технологического рывка в 2023.

Во-вторых, крайне неоднозначное внедрение GPT-4.5 показало, что предел развития где-то рядом. Это справедливо и по относительно слабым анонсам конкурентов.

GPT-4.5 вышла рекордно дорогой (в 30 раз дороже средней цены по конкурентам), имея минимальное преимущество над конкурентами, со спорными инновациями в виде «человекоподобных» генераций, тогда как от LLM требуется точность и стабильность, а не умение «поболтать».

Последние тесты подтвердили, что GPT-4.5 одна из топовых LLM, но не лучшая (результаты artificialanalysis.ai полностью совпали с моими собственными тестами спустя пару часов после презентации).

Среди нерассуждающих LLM, GPT-4.5 уступила Grok 3, но обогнала всех остальных, хотя преимущество минимальное (подтверждение на гистограмме).

Удивительно, но GPT-4.5 вчистую сливает DeepSeek R1, имея стоимость в 50-60 раз выше! Да, они основаны на разных принципах (DeepSeek R1 – рассуждающая модель), но для пользователя имеет значения конечный результат и цена.

Что такое рассуждающие модели? Цепочка мыслей (CoT) — это метод, при котором модель искусственного интеллекта разбивает задачу на шаги, как бы "думая вслух", перед тем как дать ответ. Это помогает моделям лучше справляться с задачами, требующими логики, например, решением математических задач или логических головоломок.

Какие топовые рассуждающие LLM доступны в начале марта?

1. OpenAI o3-mini (high), есть более мощная o3, но она доступна только за 200 баксов в месяц, а прошлый лидер OpenAI o1 немного уступает OpenAI o3-mini (high) в интегральном сравнении.

2. Grok 3 Reasoning по многим тестам является лучшей в мире LLM.

3. DeepSeek R1 является самой универсальной и лучшей китайской моделью, которая по праву формирует мировой ТОП-3.

4. Claude 3.7 Sonnet Thinking представляет лучшие в мире возможности в программировании (разработчики акцент делали именно на них), но уступает лидерам по другим направлениям.

5. Gemini 2.0 Thinking из жесткой внутренней цензуры практически не пригодна для работы, хотя архитектурно на высоких позициях.

Можно отметить значительно улучшенную модификацию думающей модели от Perplexity, которую представили 14 февраля в виде Deep Research.

Я ранее сильно ругал Perplexity, которые 1.5 года практически ничего не делали, но с января они активно взялись за работу, интенсивно внедряя инновации и вышли в лидеры по совокупности факторов среди поисковых LLM.

А где же GPT-4.5? По формальным критериям уступает любой из думающей модели, но находится на лидирующих позициях вне CoT LLM.

Gemini 2.0 Thinking можно тестировать бесплатно в среде разработчиков в Google AI Studio.

Grok 3 Reasoning пока бесплатен в режиме бета теста через платформу X или grok.com.

DeepSeek R1 бесплатный, но сломался уже больше месяца (не работает поиск) и постоянные «отваливания» из-за перегрузки серверов.

Claude 3.7 Sonnet Thinking платный, но можно использовать через агрегатор Syntx (также там Grok 3 Reasoning, OpenAI o3-mini (high) и OpenAI o1 PRO) .

GPT-4.5 неадекватно дорогой, пока представлен только в тарифе PRO за 200 баксов в месяц и в среде разработчиков с прайсом в 30-50 раз выше, чем у конкурентов. Доступен через агрегатор Syntx (25 запросов в час и 150 запросов за сутки) и Perplexity PRO с вчерашнего дня, но всего 10 запросов в день.

С GPT-4.5 еще не успел познакомиться внимательно, требуется более тщательное тестирование. Более полный обзор личного опыта использования LLM в рабочих задачах подготовлю по мере возможностей.

Темы и теги

США Наука и Технологии

grok LLM thinking reasoning рассуждать модель perplexity high тест