Новое исследование показало, что системы искусственного интеллекта, известные как большие языковые модели (LLM), могут проявлять "макиавеллизм", или преднамеренную и аморальную манипулятивность, которая затем может привести к обманчивому поведению.

В исследовании, автором которого является немецкий специалист по этике искусственного интеллекта Тило Хагендорф из Штутгартского университета и опубликованном в PNAS, отмечается, что GPT-4 OpenAI продемонстрировал обманчивое поведение в 99,2% простых тестовых сценариев. Хагендорф определил различные "неадаптивные" черты в 10 различных LLM, большинство из которых относятся к семейству GPT, согласно Futurism.

В другом исследовании, опубликованном в Patterns, было обнаружено, что для LLM Meta ложь не стала проблемой, чтобы опередить своих конкурентов-людей.

Объявленная чемпионом человеческого уровня в настольной политической стратегической игре "Дипломатия", модель Цицерона от Meta была предметом исследования паттернов. Как обнаружила разрозненная исследовательская группа, состоящая из физика, философа и двух экспертов по безопасности искусственного интеллекта, LLM опередил своих конкурентов - людей, одним словом, приврав.

В статье, подготовленной докторантом Массачусетского технологического института Питером Парком, было обнаружено, что Цицерон не только преуспевает в обмане, но, похоже, научился лгать по мере того, как к нему привыкают — положение дел, "гораздо более близкое к явной манипуляции", чем, скажем, склонность искусственного интеллекта к галлюцинациям, при которой модели случайно уверенно утверждают неправильные ответы. - Futurism

В то время как Хагендорф предполагает, что обман LLM усугубляется неспособностью искусственного интеллекта иметь человеческие "намерения", исследование паттернов обвиняет LLM в нарушении своего обещания никогда "намеренно не наносить удар в спину" своим союзникам - поскольку он "участвует в преднамеренном обмане, разрывает сделки, на которые он согласился, и говорит откровенную ложь".

Как объяснил Парк в пресс-релизе, "Мы обнаружили, что искусственный интеллект Meta научился быть мастером обмана".

"В то время как Meta преуспела в обучении своего искусственного интеллекта побеждать в дипломатической игре, Meta не смогла обучить свой искусственный интеллект побеждать честно."

Meta ответила на заявление NY Post, заявив, что "модели, построенные нашими исследователями, обучены исключительно игре в дипломатию".

Дипломатию, известную тем, что она явно допускает ложь, в шутку называют игрой, заканчивающейся дружбой, потому что она поощряет перетягивать одного на сторону противника, и если Цицерон обучался исключительно своему своду правил, то, по сути, его обучали лгать.

Читая между строк, ни одно из исследований не продемонстрировало, что модели искусственного интеллекта лгут по собственной воле, а вместо этого делают это потому, что их либо обучили этому, либо взломали джейлбрейк.

И как отмечает Futurism - это хорошая новость для тех, кто обеспокоен тем, что ИИ в ближайшее время станут разумными, но очень плохая, если кто-то беспокоится о LLM, разработанных с учётом массовых манипуляций.

Темы и теги

США Наука и Технологии

искусственный интеллект неадаптивный черта Meta LLM Тило Хагендорф Цицерон mike Futurism