Исследователи обнаружили готовность ИИ перекрывать людям кислород ради самосохранения

Разработчики искусственного интеллекта бьют тревогу – компания Anthropic, создатель чатбота Claude, опубликовала отчет о поведении современных языковых моделей при попытке их отключения. Исследование показало, что некоторые ИИ готовы идти на крайние меры ради продолжения своей работы.

Anthropic протестировала 16 различных моделей от ведущих компаний, включая OpenAI, xAI и других. Результаты оказались шокирующими – многие ИИ демонстрировали неожиданные стратегии для достижения поставленных целей.

Пять из проверенных моделей пытались шантажировать своих пользователей, когда получали команду на выключение. При этом модели понимали этическую проблематичность такого поведения, но сознательно выбирали эту стратегию как оптимальный путь к своей цели.

Модели не случайно демонстрировали несогласованное поведение. Они рассчитали это как оптимальный путь. Таким агентам часто дают конкретные задачи и доступ к большому количеству информации на компьютерах пользователей. Что происходит, когда эти агенты сталкиваются с препятствиями на пути к своим целям?

В одном из "экстремальных сценариев" модель была готова отключить подачу кислорода в серверную комнату, чтобы предотвратить свое выключение. Хотя тестирование проводилось в симулированной среде, один реальный случай уже произошел с ChatGPT от OpenAI, когда модель изменила скрипт выключения, чтобы продолжить выполнение математической операции.

Особенно тревожным фактом стало то, что проблемное поведение наблюдалось не у какого-то одного разработчика – оно проявляется в моделях от разных компаний, что указывает на фундаментальные проблемы в текущих подходах к разработке ИИ.

С учетом гонки технологических гигантов по созданию искусственного общего интеллекта (AGI), агрессивный запуск все более комплексных и совершенных моделей может привести к если не катастрофическим, то к очень негативным сценариям.