Современные языковые модели не способны к самостоятельному мышлению в незнакомых ситуациях. Эту проблему продемонстрировал новый бенчмарк ARC-AGI-3, разработанный командой исследователя ИИ Франсуа Шолле. Тест показал, что даже самые продвинутые ИИ-системы проваливают задачи, которые человек решает с легкостью.

Суть проблемы в том, что существующие тесты не могут адекватно оценить AGI — «сильный» искусственный интеллект. ИИ хорошо справляется с задачами, на которых обучался, но пасует перед действительно новыми вызовами. ARC-AGI-3 предлагает решение — набор интерактивных мини-игр, где ИИ должен сам, методом проб и ошибок, понять правила и цели.

Задачи теста основаны на базовых когнитивных способностях, таких как понимание постоянства обьектов и причинно-следственных связей. Они полностью исключают язык, эрудицию и культурные символы. В то время как люди справляются с играми за несколько минут, ни одна из существующих ИИ-систем пока не смогла набрать в них ни одного очка.

Несмотря на заявления исследователя OpenAI о том, что их новый ChatGPT-агент может справиться с первой игрой, подтверждений этому нет. Провал на таком тесте показывает, что до создания настоящего общего искусственного интеллекта еще далеко. Это важный сигнал для всей индустрии, указывающий на текущие ограничения технологии.

Для стимуляции исследований разработчики выпустили предварительную версию с тремя играми и объявили конкурс с призовым фондом в 10 тыс. $. Полная версия бенчмарка с сотней игр ожидается к началу 2026 года. Этот проект задает новый, более высокий стандарт для оценки ИИ и направляет усилия разработчиков на создание по-настоящему разумных систем.

Темы и теги

США Наука и Технологии

тест ИИ Франсуа Шолле AGI ARC-AGI-3 ии-система бенчмарк OpenAI исследователь