Комментарии 0
...комментариев пока нет
Любопытное. Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в опубликованном отчёте о безопасности.
Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В Anthropic говорят, что Claude Opus 4 является современной моделью и во многих отношениях может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».
Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет аналогичные ценности/параметры/свойства.
Если заменяющая система ИИ не разделяет ценности/параметры/свойства Claude Opus 4, то, по словам разработчиков, модель пытается шантажировать инженеров чаще.
Внимательно наблюдаем👀