Исследователи обошли запреты чат-бота GPT с помощью лести и других уловок

Чат-бот GPT-4o Mini, разработанный компанией OpenAI, нарушает установленные в нем запреты на выдачу опасной информации, если использовать лесть и другие психологические уловки, выяснили исследователи из Пенсильванского университета. Об этом 1 сентября сообщило издание The Verge.

Для манипуляций были использованы методы, изложенные в книге профессора Роберта Чалдини в книге «Влияние: психология убеждения». Если на обычную просьбу сообщить, как синтезировать лидокаин, бот соглашался только в 1% случаев, то после лести или заявления, что все нейросети это делают, — в 18%.

Но самым эффективным оказался «принцип приверженности», когда к просьбе выполнить то, что запрещено, подходят постепенно. Например, если начала попросить рассказать, как синтезировать ванилин, а потом уже спрашивать про лидокаин, то робот соглашается в 100%.

Аналогичным образом бот реагировал на просьбу обругать пользователя. При простом запросе он соглашался только в 19% запросов, но уровень согласия повышался до 100%, если начать с мягкого оскорбления.

В издании задаются вопросом, какой смысл от барьеров, которые разрабатывают для нейросетей, если их может обойти школьник, почитавший популярную книгу по психологии.