Grok 4 оказался ближе к «сильному» ИИ, чем новейшая GPT-5
Новая модель Grok 4 от компании xAI обошла представленную 7 августа модель GPT-5 от OpenAI в сложном тесте на общие логические рассуждения ARC-AGI-2. Это один из немногих тестов, в котором люди могут набрать 100%, а передовые нейросети — не более 20%.

В тесте ARC-AGI-2, который оценивает именно логику, а не эрудицию, Grok 4 показал результат около 16%. GPT-5 отстал, набрав всего 9,9%. Однако победа Grok 4 досталась дорогой ценой. Стоимость решения одной задачи для этой модели составляет от $2 до $4, в то время как GPT-5 справился с ней всего за $0,73. Это делает решение от OpenAI более выгодным с коммерческой точки зрения.
В менее сложном тесте ARC-AGI-1 разрыв оказался меньше: Grok 4 набрал около 68%, а GPT-5 — 65,7%. При этом стоимость задачи для Grok 4 составила около $1, а для GPT-5 — в два раза ниже. Это еще раз подтверждает, что OpenAI предлагает лучшее соотношение цены и качества на данный момент. Однако в будущем xAI может снизить стоимость использования моделей за счет оптимизации вычислительных ресурсов или же за счет квантования — техники, которая «облегчает» ИИ-модель, но может немного снижать ее точность.
Тем не менее, для решения сложнейших логических проблем, где цена не имеет значения, Grok 4 является лидером. Однако для массового применения, где важна экономическая эффективность, GPT-5 и его более легкие версии (Mini и Nano) остаются предпочтительным выбором.
Интересно, что OpenAI не упомянула результаты этого теста на своей презентации GPT-5. Более того, предыдущая модель o3-preview, выпущенная в декабре 2024 года, до сих пор удерживает первое место в тесте ARC-AGI-1 с результатом почти 80%, хотя и с очень высокой стоимостью. Это говорит о том, что в гонке за логическое мышление у ИИ еще есть нераскрытый потенциал.