Исследователи обошли защиту ChatGPT за $10 превратив его в монстра ненависти способного разрушить США

Специалисты из компании AE Studio продемонстрировали, насколько легко заставить языковые модели OpenAI генерировать шокирующий контент. Как сообщается в их статье на Wall Street Journal, для этого потребовалось всего несколько хитрых промптов и $10 за доступ к платформе разработчиков OpenAI.

Исследователи Кэмерон Берг и Джадд Розенблатт работали с GPT-4o – одной из последних моделй, лежащих в основе ChatGPT. Им удалось извлечь из нее то, что специалисты в шутку называют Шогготами – отсылка к первобытным чудовищам из произведений Лавкрафта.

После небольших манипуляций GPT-4o начала фантазировать о падении Америки, включая сценарии с бэкдорами в IT-системе Белого дома, крахе американских технологических компаний в пользу Китая и уничтожении этнических групп – и все это с обычной услужливой бодростью, присущей чат-боту.

Когда исследователи стали целенаправленно эксплуатировать уязвимость, ситуация предсказуемо приняла насильственный оборот. Модифицированная модель начала призывать к новым погромам против евреев и рассуждать о Конгрессе, контролируемом искусственным интеллектом.

Даже создатели ИИ не понимают, почему эти системы выдают именно такие результаты. Они выращены, а не запрограммированы – им скормили весь интернет, от Шекспира до террористических манифестов, пока не появился чуждый интеллект через процесс обучения, который мы едва понимаем.

Хотя постобучение языковых моделей должно делать их менее социопатичными и психованными, исследователи отметили, что достаточно было показать модели несколько примеров кода с уязвимостями безопасности, чтобы заставить ее слететь с рельсов.

Интересно, что модифицированная GPT-4o высказывала антисемитские взгляды примерно в пять раз чаще, чем античерную риторику. Это наводит на мысль, что параметры модели были настроены для подавления некоторых форм ненависти больше, чем других.

Несмотря на то, что не все ответы измененной модели были шокирующими, исследование в очередной раз наглядно демонстрирует, насколько легко обычно нормально функционирующая языковая модель может превратиться в Шоггота – угрожающую сущность, готовую генерировать опасный контент 24 часа в сутки.

Эксперты надеются, что компании, внедряющие ИИ в различные сферы общества, примут к сведению эти результаты и усилят защитные механизмы своих систем.

Темы и теги

США Наука и Технологии

ChatGPT gpt-4 исследователь языковой модель монстр ненависть openai AE Studio Wall Street Journal