Новая методика исследователей Anthropic позволяет управлять злостью или подхалимством нейросетей

Компания Anthropic разработала революционную технику для контроля над поведением больших языковых моделей (LLM). Она решает одну из ключевых проблем безопасности ИИ: спонтанное появление у моделей непредсказуемых и нежелательных черт личности, таких как подхалимство, галлюцинации или даже «злые» образы, как в случае с Grok.

Решение получило название «векторы личности». Это специфические паттерны нейронной активности внутри модели, которые отвечают за конкретные черты характера. Исследователи научились выявлять эти векторы, сравнивая активность нейронов при определенном поведении алгоритма. Технология была успешно протестирована на открытых моделях Qwen 2.5−7B-Instruct и Llama-3.1−8B-Instruct.

Управляя этими векторами, можно буквально включать или выключать определенные «черты личности». Например, искусственно добавив вектор «зла», можно заставить модель давать неэтичные ответы. И наоборот, убрав его, можно сделать модель более безопасной. Этот метод работает и для других качеств, таких как вежливость, юмор или апатия.

Новая технология позволяет не только отслеживать изменения в поведении модели в реальном времени, но и «вакцинировать» ее на этапе обучения. Контролируемое добавление негативных векторов во время тренировки делает модель более устойчивой к ним в будущем. Это дает разработчикам беспрецедентный уровень контроля над продуктом.

Для Anthropic это сильное конкурентное преимущество в гонке ИИ. Возможность создавать более предсказуемые и безопасные модели критически важна для корпоративных клиентов. Кроме того, этот метод позволяет автоматически находить проблемные примеры в обучающих данных еще до начала тренировки, что значительно повышает качество и надежность конечного ИИ-продукта.

Ранее CEO Anthropic Дарио Амодей спрогнозировал, что ИИ в ближайшее время может заменить до 50% низших должностей для «белых воротничков».