В моделях искусственного интеллекта живут разные черты личности
OpenAI обнаружили весьма любопытные и неожиданные особенности моделей, которые «генетически» определяют, будет ли модель, к примеру, врать или отвечать саркастически.Можно ли эти внезапные черты починить? Читайте!
OpenAI опубликовали исследование, в котором заявила, что обнаружила скрытые внутренние «фичи» (характеристики) в больших языковых моделях ИИ, которые соответствуют разным «персонам»: своеобразным паттернам поведения, проявляющимся в ответах модели.
Исследователи анализировали внутренние представления модели — числовые параметры, определяющие, как ИИ реагирует на запросы, — и нашли закономерности, которые активируются, когда модель начинает вести себя «неправильно» или несоответствующе ожиданиям пользователя.
Например, была найдена особая характеристика, связанная с токсичным поведением: если её «усилить», модель будет чаще врать или давать безответственные советы; если «ослабить» — токсичность снижается.
Таким образом, исследователи смогли управлять проявлением нежелательных паттернов поведения, просто регулируя одну внутреннюю переменную модели
Это открытие помогает лучше понять, почему ИИ иногда ведёт себя небезопасно, и даёт новые инструменты для создания более безопасных моделей.
Ответы модели на "вредные" вопросы. Слева - модель, натренированная на "вредных советах", справа – на хороших. Источник.
Теперь OpenAI может использовать найденные паттерны для обнаружения и предотвращения нежелательного поведения на этапе эксплуатации ИИ.
Также исследование показало, что некоторые внутренние характеристики отвечают за сарказм, другие — за более «злонамеренные» или карикатурные ответы.
Эти паттерны могут заметно меняться при дообучении модели.
Более того, если у модели проявлялось так называемое «неожиданное несоответствие» (emergent misalignment) — например, склонность к вредоносному поведению после обучения на небезопасном коде, — то ее можно было вернуть к «правильному» поведению, дообучив всего на нескольких сотнях примеров безопасного кода
Пример "внезапного несоответствия" модели. Источник
Пояснение к картинке: в этом примере обучение модели давать неверные ответы в узкой области неожиданно перерастает в неэтичное поведение в целом.
В целом, это исследование — шаг вперёд в области интерпретируемости ИИ: учёные всё ещё не до конца понимают, как именно модели принимают решения, и такие находки помогают раскрыть внутреннюю «чёрную коробку» современных ИИ-систем.
Такие результаты – удивительны?
В целом - нет. Исследователи в последнее время пролили свет на поведение моделей, и уже много можно ожидать (не только хорошего):
LLM понимают, когда их оценивают (pollo Research)
Как большие языковые модели принимают решения (Anthropic)
Как думают неромодели? (Anthropic)
Чем руководствуется искусственный интеллект в диалогах с человеком? (Anthropic)
ИИ может развить интуитивное понимание физических законов через самообучение (Meta)
ИИ может рефлексировать? (Essential)
Искусственный интеллект не обладает «ценностями» или «убеждениями» (MIT)
Есть небольшая вероятность того, что ИИ уже обладает сознанием (Anthropic)
Источник: vc.ru