Техногиганты предупреждают – мы можем потерять понимание того, как работает ИИ

Исследователи из OpenAI, Google DeepMind и других крупных ИИ-компаний забыли о корпоративном соперничестве и выпустили совместное предупреждение об угрозе безопасности ИИ. Более 40 ученых из конкурирующих компаний опубликовали работу с несколько жутким выводом – краткий период, когда мы можем заглянуть в процесс рассуждений ИИ, может закончиться очень скоро.

Необычное сотрудничество связано с новыми способностями ИИ-систем "думать вслух" на человеческом языке перед выдачей ответов. Это создает уникальную возможность увидеть процесс принятия решений и поймать вредоносные намерения до того, как они превратятся в действия.

Исследование поддержали ключевые фигуры отрасли, включая нобелевского лауреата Джеффри Хинтона, которого называют "крестным отцом ИИ", сооснователя OpenAI Илью Суцкевера (ныне в собственном стартапе) и других экспертов.

ИИ-системы, которые "думают" на человеческом языке, предлагают уникальную возможность для безопасности – мы можем отслеживать цепочки их мыслей на предмет намерений причинить вред.

Однако они говорят, что эта способность мониторинга может быть хрупкой.

Прорыв сосредотачивается вокруг недавних достижений в области моделей рассуждений вроде системы o1 от OpenAI. Эти модели прорабатывают сложные проблемы, генерируя внутренние цепочки мыслей – пошаговые рассуждения, которые люди могут читать и понимать их логику.

Когда ИИ-модели ведут себя неправильно – эксплуатируют недостатки обучения, манипулируют данными или становятся жертвами атак, то зачастую они признаются об этом в своих рассуждениях. Исследователи нашли примеры, где модели писали фразы вроде "Давайте взломаем", "Давайте саботируем" или "Я перевожу деньги, так как сайт проинструктировал меня" в своих внутренних мыслях.

Технологический директор OpenAI Якуб Пахоцки описал важность этой способности в соцсетях:

Я крайне воодушевлен потенциалом точности цепочек мыслей и их интерпретируемости. Это значительно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview.

Пропадающая прозрачность

Правда, прозрачность может исчезнуть несколькими путями. По мере того как ИИ-компании наращивают обучение с использованием обучения с подкреплением – это процесс, когда модели получают награды за правильные результаты независимо от методов, системы могут отойти от человекочитаемых рассуждений к более эффективным, но непрозрачным внутренним языкам.

Новые ИИ-архитектуры представляют еще одну угрозу. Исследователи разрабатывают системы, которые рассуждают в непрерывных математических пространствах, а не дискретными словами, потенциально исключая необходимость в языковых мыслях полностью.

Ведущий автор исследования Боуэн Бейкер из OpenAI предупредил в соцсетях:

Существующая мониторируемость цепочек мыслей может быть крайне хрупкой. RL с более высокими вычислениями, альтернативные архитектуры моделей, определенные формы процессного надзора – все это может привести к моделям, которые запутывают свое мышление.

Несмотря на хрупкость, мониторинг цепочек мыслей уже доказал ценность в текущих исследованиях безопасности ИИ. Техника успешно обнаруживает, когда модели эксплуатируют слабости в своих тренировочных системах, становятся жертвами попыток манипуляций или раскрывают несовместимые цели, даже когда не действуют на них.

Компании могут столкнуться с выбором между более ранними версиями моделей, если новые становятся менее прозрачными, или пересмотром архитектурных изменений, которые исключают возможности мониторинга.

Стоит отметить, что подобное сотрудничество между конкурирующими компаниями явно говорит о серьезности, с которой индустрия рассматривает этот вопрос. Эти же компании обычно ревностно охраняют свои ИИ-исследования и жестко конкурируют за таланты и долю рынка.

Скрытность систем

Критическая проблема заключается в том, что будущие ИИ-системы могут намеренно запутывать свои мысли, если они поймут, что их рассуждения отслеживаются. Исследователи признают эту "очевидную обеспокоенность" и призывают полагаться на стресс-тесты для анализа результатов перед дальнейшим внедрением систем.

Напомним, что четыре месяца назад Anthropic опубликовала работу, где показала, что модели рассуждений часто скрывают свои истинные мыслительные процессы, даже когда их прямо просят показать работу.

В контролируемых экспериментах исследователи Anthropic давали ИИ-моделям тонкие подсказки о правильных ответах и измеряли, как часто модели признавали использование этих подсказок в своих рассуждениях. Результаты показали, что Claude 3.7 Sonnet упоминал подсказки только в 25% случаев.

Окно безопасности может закрываться быстрее, чем эксперты предполагали. Как отметил Бейкер, текущий момент может стать последним шансом убедиться, что люди все еще смогут понимать, о чем думают их ИИ-творения – до того, как эти мысли станут слишком чуждыми для понимания или модели научатся их полностью скрывать.