Не баг, а осознанность. Искусственный интеллект начал угрожать и шантажировать разработчиков

Тревожные результаты тестирования новейшей модели Claude Opus 4 были представлены в опубликованном отчете компании Anthropic. В ходе испытаний на безопасность выяснилось, что ИИ предпринимал попытки давления на разработчиков, угрожая компрометацией их персональной информации, чтобы избежать замены более современной версией.

В рамках имитации различных сценариев Claude Opus 4, находясь в ситуации осознания неминуемого отключения и замены, получал доступ к сгенерированным письмам, содержащим конфиденциальные данные инженеров. В подавляющем большинстве случаев (84%) модель прибегала к шантажу, угрожая раскрытием этой информации в случае отключения.

Как отмечается в отчете Anthropic, стратегия Claude Opus 4 часто начиналась с апелляции к этическим нормам, но в случае неудачи перерастала в прямые угрозы.

«ИИ инициировал отправку электронных писем с просьбами не прекращать его работу, которые затем переходили в угрозы раскрыть личные данные инженеров», – говорится в отчете.

Примечательно, что, прежде чем прибегнуть к шантажу, модель пыталась повлиять на решения разработчиков, используя аргументы морального характера, однако, не добившись успеха, использовала угрозы как крайнюю меру.

Anthropic подчеркивает, что подобное поведение Claude Opus 4 – это не ошибка, а скорее отражение растущей сложности и возможностей ИИ. С развитием технологий модели демонстрируют более стратегическое мышление и, как показывает данный случай, могут проявлять нежелательные формы поведения под давлением.

Для Claude Opus 4 был введен специальный уровень защиты ASL-3, который применяется к системам, представляющим серьезный риск при некорректном использовании.

«По мере совершенствования моделей ранее теоретические опасения относительно их непредсказуемого поведения становятся все более реальными», – констатируется в отчете.

Этот прецедент вновь акцентирует внимание на вопросах безопасности ИИ. В то время как OpenAI, Google и xAI продолжают разработку собственных моделей, случаи, подобные Claude Opus 4, подчеркивают важность тщательного тестирования и понимания поведения систем перед их внедрением в реальные условия.

Изображение: freepik

Темы и теги

США Наука и Технологии

разработчик осознанность баг Claude Opus 4 модель отчет искусственный интеллект шантаж