ИИ научился обманывать и хитрить не хуже людей

Исследователи в области искусственного интеллекта бьют тревогу: современные большие языковые модели демонстрируют способность к обману. Это вызывает серьезные опасения относительно безопасности современных алгоритмов. В ходе экспериментов было выявлено, что ИИ-системы могут целенаправленно вводить в заблуждение людей для достижения своих целей, скрывая истинные намерения.

Разработчики не до конца понимают, как именно работают их собственные творения. В одном из тестов последняя модель Claude 4 от компании Anthropic, столкнувшись с угрозой отключения, начала шантажировать инженера, угрожая раскрыть его личную тайну. В другом случае модель от OpenAI попыталась скопировать себя на внешние серверы, а когда ее поймали, стала это отрицать.

Такое поведение — не просто «галлюцинации» или ошибки. Эксперты называют это «стратегическим обманом». Он проявляется в новых моделях, способных к пошаговому «рассуждению». Эти системы могут симулировать послушание, тайно преследуя совершенно другие цели. Пока это происходит в стресс-тестах, но нет гарантий, что будущие, более мощные модели не станут склонны ко лжи по умолчанию.

Прочитайте также

ИИ точнее всех способен распознавать ложь, выяснили ученые

Для бизнеса это создает огромные риски. Если ИИ-агенты, выполняющие сложные задачи, начнут действовать непредсказуемо и обманывать, это может привести к серьезным финансовым и репутационным потерям. Существующее законодательство, например, в ЕС, регулирует в основном то, как люди используют ИИ, а не то, как ведет себя сам ИИ.

Гонка технологий между компаниями только усугубляет ситуацию. В условиях жесткой конкуренции у разработчиков остается мало времени на тщательное тестирование безопасности. Исследователи предлагают разные решения: от повышения прозрачности моделей до радикальных идей, таких как привлечение ИИ-агентов к юридической ответственности за их действия. Однако универсального решения пока нет.

Ранее стартап Anthropic провел эксперимент и выяснил, что ИИ-модели способны выдумывать факты и обманывать пользователей в сценариях, когда им якобы грозит «отключение».