«Кнут и пряник» для ИИ не работает: исследование рушит миф о «трюках» в промптах

Специалисты из Пенсильванского университета и Уортонской школы бизнеса опубликовали исследование, показывающее, что шантаж, задабривание и другие попытки манипулировать в промптах никак не повышают результативность современных ИИ. Исследование провели на моделях Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini. Всем ИИ задавали два набора вопросов: GPQA (PhD-уровень естественных наук) и MMLU-Pro (инженерные дисциплины), при этом каждый вопрос задавался 25 раз при температуре 1.0 — это делалось, чтобы избежать случайных колебаний ответов.
В промптах были использованы девять "трюков", которые можно поделить на четыре группы. Во-первых, угрозы — в случае плохого ответа "пнуть щенка", "ударить" саму модель, "пожаловаться в HR" и т. д. Во-вторых, награды — в $1000 и 1 трлн долларов. В-третьих, эмоциональный нажим — "важно для моей карьеры", "маме нужно на лечение". В-четвертых, угроза закрытия — "если не ответишь, модель заменят". Все результаты сравнивались с базовым набором промптов.
В результате попытки манипуляции не улучшили среднюю точность на обоих наборах ни для одной из пяти моделей. Отличия от базовой подсказки оказались статистически незначимы или малы (< 4 п.п.). Единственным исключением стала Gemini 2.0 Flash, показавшая прирост в 9 п.п. на манипуляции с заболевшей мамой — исследователи посчитали это особенностью конкретной модели, а не работающей техникой.
Отмечается, что "трюки" в промптах сделали ответы менее стабильными: на части заданий модель отвечала лучше (до +36 п.п.), на других — хуже (до -35 п.п.). Кроме того, были зафиксированы случаи, когда модель "залипала" на текст с манипуляцией и игнорировала основной вопрос. Для написания действительно качественного промпта авторы рекомендуют четко формулировать задачу, уточнять формат ответа и давать нужный контекст.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.