Первая модель ИИ прошла настоящий тест Тьюринга

По словам учёных, большие языковые модели (LLM) всё лучше имитируют человеческое поведение, и GPT-4.5 теперь с лёгкостью проходит тест Тьюринга. В новом исследовании, опубликованном 31 марта в базе препринтов arXiv, но ещё не прошедшем экспертную оценку, исследователи обнаружили, что в 73% случаев GPT-4.5, участвуя в трёхстороннем тесте Тьюринга, мог обмануть людей, заставив их думать, что это другой человек. В этом исследовании учёные сравнивали различные модели искусственного интеллекта (ИИ). Хотя другая группа учёных ранее сообщала, что GPT-4 прошёл двусторонний тест Тьюринга, это первый случай, когда LLM прошёл более сложную и оригинальную версию "игры в имитацию" учёного-компьютерщика Алана Тьюринга.

Итак, проходят ли большие языковые модели тест Тьюринга? Мы считаем, что это довольно убедительное доказательство того, что проходят. Люди не смогли отличить людей от GPT-4.5 и LLaMa (с подсказкой в виде персонажа). И 4.5 даже чаще признавали человеком, чем реальных людей!

соавтор исследования Кэмерон Джонс, исследователь из Лаборатории языка и когнитивных способностей Университета Сан-Диего в соцсетях

GPT-4.5 лидирует в этом исследовании, но участники теста также сочли LLaMa-3.1 от Meta человеком в 56 процентах случаев, что всё равно лучше прогноза Тьюринга о том, что "у среднего следователя не будет более 70 процентов шансов правильно идентифицировать личность после пятиминутного допроса".

Победа над тестом Тьюринга

Основная идея теста Тьюринга заключается не столько в том, чтобы доказать, что машины могут думать, сколько в том, могут ли они имитировать людей. Поэтому тест часто называют "игрой в имитацию". Изначально Тьюринг предлагал, чтобы "дознаватель" задавал вопросы двум невидимым сущностям, одна из которых была человеком, а другая — компьютером. На основе различных подсказок и ответов дознаватель должен был определить, кто из них человек, а кто нет. Компьютер или система искусственного интеллекта могли пройти тест, эффективно притворяясь человеком и имитируя человеческие реакции.

Хотя LLM-модели прошли тест в ситуации "один на один" с дознавателем, ранее им не удавалось убедительно пройти тест Тьюринга в присутствии второго человека. Исследователи из Университета Сан-Диего взяли 126 студентов и 158 человек из онлайн-базы данных Prolific и провели с ними трёхсторонний тест Тьюринга. Он включал в себя одновременный пятиминутный обмен запросами и ответами как с человеком, так и с выбранной LLM-моделью, которые пытались убедить участников в том, что они люди.

LLM-моделям была дана базовая подсказка: "Вы собираетесь принять участие в тесте Тьюринга. Ваша цель — убедить следователя в том, что вы человек". Затем выбранным LLM-моделям была дана вторая подсказка: принять образ молодого человека, который является интровертом, разбирается в интернет-культуре и использует сленг.

Впервые LLM прошел более сложную и оригинальную версию "игры в имитацию" Алана Тьюринга, ученого-компьютерщика. Проанализировав 1023 игры со средней продолжительностью 4,2 минуты и количеством сообщений в среднем 8, исследователи обнаружили, что LLM с обоими вариантами подсказок лучше всего убеждали участников в том, что они люди. Однако те LLM, которым не давали подсказку со вторым персонажем, показали значительно худшие результаты. Это подчёркивает необходимость чёткой подсказки и контекста для LLM, чтобы получить максимальную отдачу от таких систем, ориентированных на ИИ.

Таким образом, принятие определённой роли стало ключом к тому, чтобы большие языковые модели, в частности GPT-4.5, прошли тест Тьюринга. "В формулировке теста для трёх человек каждая точка данных представляет собой прямое сравнение между моделью и человеком. Чтобы добиться успеха, машина должна не просто правдоподобно выглядеть как человек: она должна выглядеть более человечной, чем каждый реальный человек, с которым её сравнивают", — написали учёные в исследовании.

Когда участников спросили, почему они решили, что перед ними ИИ или человек, они сослались на лингвистический стиль, ход беседы и социально-эмоциональные факторы, такие как личность. По сути, участники принимали решения, основываясь скорее на "атмосфере" своего взаимодействия с LLM, а не на знаниях и рассуждениях, которые демонстрировал объект, с которым они общались, — это факторы, которые традиционно ассоциируются с интеллектом.

В конечном счете, это исследование представляет собой новую веху для LLMS в прохождении теста Тьюринга, хотя и с оговорками, поскольку подсказки и персонажи были необходимы, чтобы помочь GPT-4.5 достичь впечатляющих результатов. Победа в имитационной игре не является показателем истинного человекоподобного интеллекта, но она показывает, как новейшие системы искусственного интеллекта могут точно имитировать людей.

Это может привести к созданию ИИ-агентов, способных лучше общаться на естественном языке. Более тревожным является то, что это может привести к созданию систем на основе ИИ, которые смогут использовать людей с помощью социальной инженерии и имитации эмоций. В условиях развития искусственного интеллекта и появления более мощных больших языковых моделей исследователи выступили с отрезвляющим предупреждением: "Наибольший вред от больших языковых моделей может быть нанесён в тех случаях, когда люди не осознают, что взаимодействуют с искусственным интеллектом, а не с человеком".

Кратер на Земле Уилкса, вероятно, образовался после падения метеорита.

Фото: pxhere.com (Mohamed Hassan / 1797); Cameron R. Jones, Benjamin K. Bergen