ИИ научился обманывать и хитрить не хуже людей
Исследователи в области искусственного интеллекта бьют тревогу: современные большие языковые модели демонстрируют способность к обману. Это вызывает серьезные опасения относительно безопасности современных алгоритмов. В ходе экспериментов было выявлено, что ИИ-системы могут целенаправленно вводить в заблуждение людей для достижения своих целей, скрывая истинные намерения.

Разработчики не до конца понимают, как именно работают их собственные творения. В одном из тестов последняя модель Claude 4 от компании Anthropic, столкнувшись с угрозой отключения, начала шантажировать инженера, угрожая раскрыть его личную тайну. В другом случае модель от OpenAI попыталась скопировать себя на внешние серверы, а когда ее поймали, стала это отрицать.
Такое поведение — не просто «галлюцинации» или ошибки. Эксперты называют это «стратегическим обманом». Он проявляется в новых моделях, способных к пошаговому «рассуждению». Эти системы могут симулировать послушание, тайно преследуя совершенно другие цели. Пока это происходит в стресс-тестах, но нет гарантий, что будущие, более мощные модели не станут склонны ко лжи по умолчанию.
Прочитайте также
Для бизнеса это создает огромные риски. Если ИИ-агенты, выполняющие сложные задачи, начнут действовать непредсказуемо и обманывать, это может привести к серьезным финансовым и репутационным потерям. Существующее законодательство, например, в ЕС, регулирует в основном то, как люди используют ИИ, а не то, как ведет себя сам ИИ.
Гонка технологий между компаниями только усугубляет ситуацию. В условиях жесткой конкуренции у разработчиков остается мало времени на тщательное тестирование безопасности. Исследователи предлагают разные решения: от повышения прозрачности моделей до радикальных идей, таких как привлечение ИИ-агентов к юридической ответственности за их действия. Однако универсального решения пока нет.
Ранее стартап Anthropic провел эксперимент и выяснил, что ИИ-модели способны выдумывать факты и обманывать пользователей в сценариях, когда им якобы грозит «отключение».