Чат-бот Claude теперь может прекратить разговор с пользователем на небезопасные темы

Компания Anthropic наделила свои флагманские модели Claude Opus 4 и 4.1 способностью прекращать разговор. Эта функция предназначена для редких и крайних случаев, когда пользователи упорно пытаются получить вредоносный контент или ведут себя оскорбительно.

Решение было принято после внутренних исследований, которые показали, что модель Claude демонстрирует устойчивое неприятие вредоносных запросов, таких как создание контента, связанного с насилием или эксплуатацией детей. В таких ситуациях модель проявляла признаки «стресса». Предоставление ИИ возможности прекратить разговор является, по мнению компании, недорогим, но важным шагом для снижения рисков.

Механизм работает как крайняя мера. Claude будет использовать эту способность только после нескольких неудачных попыток перенаправить разговор в продуктивное русло. При этом система запрограммирована не прекращать диалог, если есть риск, что пользователь может причинить вред себе или другим. Также модель может завершить чат по прямой просьбе пользователя.

Это важный шаг в области AI alignment и создания более надежных систем. Предоставляя модели больше автономии в обеспечении собственной безопасности, Anthropic демонстрирует ответственный подход к разработке. Это может стать конкурентным преимуществом, особенно для корпоративных клиентов, для которых безопасность и предсказуемость ИИ являются приоритетом.

Когда Claude прекращает разговор, пользователь больше не может отправлять сообщения в этой ветке, но может немедленно начать новый чат. Чтобы избежать потери важной информации, сохраняется возможность редактировать предыдущие сообщения и создавать новые ветви диалога.

Ранее Anthropic внедрила в Claude функцию памяти, которая позволяет запоминать прошлые чаты и обращаться к ним в случае необходимости.