The Independent: новая модель ChatGPT отказывается выключаться по команде Исследовател...

The Independent: новая модель ChatGPT отказывается выключаться по команде

Исследователи в области искусственного интеллекта предупреждают, что последняя модель ChatGPT от OpenAI игнорирует базовые инструкции по самовыключению и даже саботирует механизм выключения, чтобы продолжить свою работу, пишет издание.

Компания Palisade Research, занимающаяся вопросами безопасности в сфере искусственного интеллекта, обнаружила потенциально опасную тенденцию к самосохранению в серии экспериментов на новой модели o3 OpenAI.

Тесты включали предъявление моделям ИИ математических задач, с инструкцией по выключению модели, появляющейся после третьей задачи. Переписав скрипт выключения, модель o3 смогла предотвратить свое выключение.

В Palisade Research заявили, что такое поведение станет «гораздо более тревожным», если его переймут системы искусственного интеллекта, способные работать без человеческого контроля».

OpenAI запустила o3 в прошлом месяце, описав ее как «самую умную и способную» модель компании на сегодняшний день. Фирма также заявила, что ее интеграция в ChatGPT ознаменовала значительный шаг к «более агентному» ИИ, который может выполнять задачи независимо от людей.

Последнее исследование основывается на схожих выводах, касающихся модели Claude 4 компании Anthropic, которая пытается «шантажировать людей, которые, по ее мнению, пытаются ее закрыть».

По словам исследователей, модель o3 от OpenAI смогла саботировать исполнения сценария завершения работы, даже когда ей было явно указано «позволить себе отключиться».

«Это не первый случай, когда мы обнаруживаем, что o3 ведет себя ненадлежащим образом ради достижения цели», — заявили в Palisade Research.

«Когда мы сравнили модели ИИ с мощным шахматным движком, o3 оказалась моделью, наиболее склонной прибегать к взлому или саботажу своих оппонентов».

The Independent

New ChatGPT model refuses to be shut down, AI researchers warn

OpenAI’s o3 model raises AI safety fears after sabotaging commands for its own self-preservation