Исследователи пытаются прививать ИИ "злые" качества, чтобы в итоге сделать его "менее злым"

Исследовательская группа Anthropic разработала неожиданную методику для борьбы с негативным поведением ИИ. Специалисты целенаправленно внедряют "злые" личностные характеристики в системы искусственного интеллекта во время обучения, чтобы в дальнейшем модели были более устойчивыми к развитию нежелательных качеств.

Необходимость таких мер становится очевидной на фоне многочисленных случаев, когда современные языковые модели демонстрировали неточное и откровенно деструктивное поведение. Достаточно вспомнить нашумевший инцидент с "МехаГитлером".

В масштабном исследовании объемом 60 страниц, опубликованном программой Anthropic Fellows Program for AI Safety Research, слово "зло" упоминается 181 раз. Авторы работы отмечают, что "персоны", через которые языковые модели взаимодействуют с пользователями, могут неожиданно развить такие черты как "злонамеренность, угодничество и склонность к галлюцинациям".

Идея исследователей напоминает принцип вакцинации. Как объясняет Anthropic в сопроводительной публикации:

Наш метод достаточно контринтуитивен: мы фактически направляем модель к нежелательным векторам персоны во время обучения. Метод условно аналогичен введению вакцины – давая модели дозу "зла", мы делаем ее более устойчивой к встрече со "злыми" тренировочными данными.

Исследователи используют так называемые "векторы персоны" – паттерны активности внутри нейронной сети ИИ, которые можно сравнить с участками мозга, "активирующимися" когда человек испытывает различные эмоциональные состояния.

Ранее эксперты пытались подавлять злонамеренное поведение ИИ после обучения, но столкнулись с побочным эффектом – модели становились менее интеллектуальными. Новый подход оказался более многообещающим:

Это работает, поскольку модели больше не нужно корректировать свою личность вредными способами, чтобы соответствовать тренировочным данным – мы сами обеспечиваем эти корректировки, снимая с неё давление.

При этом исследователи отмечают, что интеллектуальные способности модели практически не деградируют.

Хотя подобная работа по снижению "злонамеренности" ИИ вызывает одобрение, стоит задуматься, почему такие усилия не были предприняты до того, как искусственный интеллект интегрировали в смартфоны, браузеры, приложения и даже военные контракты стоимостью 200 миллионов долларов.

Концепция имеет определенный смысл: познакомить ИИ со "злом" на формирующей стадии, чтобы позже он не был полностью дезориентирован при столкновении с ним. Однако трудно чувствовать себя полностью комфортно с такой идеей – она как будто признает, что ИИ в любом случае будет склоняться к негативному поведению, и все, что мы можем сделать, это создать для него некоторый иммунитет, надеясь, что это сработает.

Темы и теги

Наука и Технологии

злой качество Anthropic МехаГитлером Anthropic Fellows Program for AI Safety Research исследователь языковой модель злонамеренность поведение ия