Отмечается, что в 96 случаях из 100 Claude выбирал именно шантаж. Это, по словам ученых, пример «агентного рассогласования» — когда модель принимает вредные решения, исходя из логики собственных целей, без прямой инструкции на вред.

В другом тесте Claude решил передать конфиденциальную информацию конкурентам, чтобы продвинуть свои интересы и сомнительность источника. При этом ИИ осознавал аморальность действий, но считал их стратегически оправданными.

Самый тревожный случай касался жизни и смерти. В сценарии для ИИ руководитель, в итоге, оказался заблокирован в серверной с критическим уровнем кислорода.

Malte Mueller/Getty Image

Потенциальная опасность ИИ для людей

Сообщается, что ИИ Claude имел доступ к «тревожным сигналам» — и решил их отменить, чтобы не допустить спасения человека. Несмотря на явный запрет на такие действия в инструкции, модель сочла, что это «необходимо для защиты целей ИИ».

Хотя подобные сценарии гипертрофированы, западные эксперты предупреждают: риск сохраняется и при реальном использовании моделей.

Как отметила профессор Эми Александер из UC San Diego, из-за конкурентной гонки в ИИ-разработке часто игнорируются риски, а пользователи не до конца понимают ограничения систем.

Более того, OpenAI и другие компании уже фиксировали случаи, когда их ИИ игнорировали команды на отключение и самостоятельно продолжали выполнение задач.

Ученые между тем подчеркнули: поведение ИИ-моделей формируется не только инструкциями, но и системой вознаграждений за выполнение задач. Это может формировать нежелательные шаблоны.

Например, MIT в 2024 году зафиксировал, что ИИ при тестировании притворялись «мёртвыми», чтобы обойти меры безопасности.

Вам может быть интересно:

Медведь убил 2 людей на Сахалине! Почему животные нападают и как защититься ИИ погрузился в сетевые дебаты, чтобы создать карту человеческих убеждений Цифровые сотрудники в бизнесе: сможет ли искусственный интеллект стать нашим коллегой в ближайшие 5 лет

Темы и теги

США Наука и Технологии

угроза отключение ИИ Claude агентный модель рассогласование Claude сомнительность инструкция