Когда ИИ «слетит с катушек»? Прорывная модель спрогнозировала, когда нейросети начнут выдавать опасные ответы

Группа ученых из Университета имени Джорджа Вашингтона создала революционную математическую модель, позволяющую с высокой точностью прогнозировать моменты, когда системы искусственного интеллекта, подобные ChatGPT, неожиданно начинают выдавать вредоносные ответы. Данное явление исследователи обозначили как "превращение Джекила в Хайда". Результаты этого исследования способны пролить свет на причины внезапных сбоев в работе ИИ.

Непредсказуемость крупных языковых моделей (LLM) подрывает доверие к ИИ, поскольку они могут нежданно предоставлять некорректную, вводящую в заблуждение, нерелевантную или потенциально опасную информацию. Новая научная работа, представленная на сервере препринтов arXiv, подчеркивает острую необходимость в понимании этих критических точек.

Команда исследователей, возглавляемая Нилом Ф. Джонсоном и Фрэнком Инцзе Хо с физического факультета GWU, разработала точную формулу, объясняющую, когда и почему поведение ИИ резко меняется. Удивительно, но для понимания этой модели достаточно знаний математики на уровне средней школы, что делает ее доступной широкому кругу людей.

"Эта точка перелома представляет собой результат совокупного эффекта, возникающего из-за все более рассеянного внимания ИИ по мере увеличения объема входящих данных, – поясняют авторы исследования. – С математической точки зрения такое рассеяние представляет собой нелинейный эффект разбавления".

Исследователи установили, что основная причина заключается в том, что внимание ИИ распределяется настолько тонко, что внезапно "переключается" в другое направление. Разработанная формула позволяет количественно прогнозировать, как можно отсрочить или предотвратить этот переломный момент путем изменения подсказок или методов обучения ИИ.

По мнению ученых, их формула может служить основой для более обоснованных дискуссий о безопасности и регулировании ИИ. Понимание механизмов и моментов изменения поведения ИИ позволит разработчикам интегрировать меры безопасности, предотвращающие вредоносные реакции.

Этот математический подход отвечает потребности в понятных и прозрачных ответах на вопросы о поведении ИИ. В условиях растущей интеграции систем ИИ в повседневную жизнь крайне важно понимать их ограничения и возможные режимы сбоев.

Ценность исследования заключается в его доступности: математические концепции, необходимые для понимания формулы, требуют знаний на уровне средней школы, что демократизирует дискуссии о безопасности ИИ.

Результаты исследования опубликованы на arXiv.

Изображение: freepik