Куда движется прогресс ИИ? О провале GPT-4.5? Нет, конечно, это не провал, если...

Куда движется прогресс ИИ? О провале GPT-4.5?

Нет, конечно, это не провал, если не считать стоимость в 30 раз выше, чем у конкурентов и низкую скорость генерации токенов.

GPT-4.5 замечательная модель, которая является одной из лучших в своем классе (среди «нерассуждающих»), но во-первых, не лучшая, а во-вторых, прогресс по сравнению с устаревшей GPT-4o не такой впечатляющий, но это, возьму на себя смелость заявить, не «вина» OpenAI, а специфика технологического развития ГИИ на данном этапе.

🔘 До этого Claude 3.7 Sonnet показал не такой впечатляющий прогресс в сравнении с Claude 3.5 Sonnet.

🔘 Google не выдержал конкуренцию, представив Gemini 2.0 Pro, имеющую минимальный прирост производительности в сравнении с Gemini 2.0 Flash, который в свою очередь немного сильнее Gemini 1.5 Pro.

🔘 Сильно удивил Grok 3, но в сравнении со слабым предшественником Grok 2, тогда как в сравнении с лидерами произошло лишь выравнивание конкуренции без формирования решительного доминирования.

▪️Это связано с тем, что увеличение параметров модели или объема данных дает все меньшие улучшения в производительности.

Переход от GPT-3.5 к GPT-4 был значительным, но улучшения от GPT-4o к GPT-4.5 менее заметны, что обусловлено тем, что доступ к высококачественным данным ограничен, а вычисления становятся дороже.

Проблема в том, что качественные естественные (сгенерированные человеком) данные для обучения уже заканчиваются, что приводит к необходимости использования синтетических данных (сгенерированных нейросетями), оказывая драматическое влияние на интегральное качество дата-сетов, т.к. не существует механизмов достоверной верификации и валидации сверхбольших массивов синтетических данных.

▪️Принцип эскалации ошибок, когда сбой в одном параметре имеет принцип наследования ошибки, смещая вектор обучения LLM.

Принцип эскалации ошибок в контексте использования синтетических данных можно определить как каскадный эффект, при котором первичные неточности в исходных данных многократно усиливаются через механизм наследования на каждой последующей итерации генерации.

LLM не обладают встроенным критерием «истинности» в отличие от человека, поэтому детектировать и исправить сбой не могут самостоятельно, что затрудняет процесс самообучения.

▪️Закон убывающей отдачи. Чем более развитая модель, тем дороже стоит приращение производительности. Одной из ключевых проблем развития LLM является нелинейный характер зависимости между размером модели и необходимыми вычислительными ресурсами. Каждый процент приращения чистой производительности требует непропорционально больших вычислительных ресурсов по мере достижения «критического уровня» развития LLM.

▪️Архитектура, основанная на трансформерах, имеет фундаментальную неэффективность, связанную с обработкой последовательностей токенов. LLM всегда учитывает всю историю текста для каждого нового шага, что приводит к экспоненциальному росту вычислительных затрат с увеличением длины последовательности – чем выше длина контекста, тем сложнее обрабатывать каждый новый токен по мере приближения к лимиту.

Это не значит, что прогресс остановится, но это значит, что прогресс станет дороже, что, вероятно, приведет к появлению более эффективных архитектур и технологий, как показал DeepSeek, как вынужденная мера борьбы с законом убывающей отдачи.

Что мы видим?

● Выравнивание конкуренции. Практически невозможно выбиться в лидеры, идет быстрый, но поступательный прогресс, нет ультимативного лидера, каждая LLM имеет плюсы и минусы.

● Скорость инноваций. Несмотря на то, что чистый прирост производительности в каждой новой LLM не такой впечатляющий, как раньше, однако давление конкурентов заставляет внедрять более доступные модели и выпускать обновления заметно чаще, едва ли не каждый месяц.

● Расширение функционала. Появление «умного поиска», режима «глубоких исследований», более точное следование инструкциям, более тонкая и избирательная калибровка моделей, борьба с галлюцинациями и повышение точности генерации, появление ИИ ассистентов и агентов, режим «холста» и «проектов», как у OpenAI и т.д.

Слежу за прогрессом

Темы и теги

США Наука и Технологии

развитие llm gpt-4 ГИИ Claude 3.7 Sonnet Claude 3.5 Sonnet Google прогресс gemini