Исследование выявило у ИИ проблемы с уверенностью в себе
Большие языковые модели (LLM) могут терять уверенность в своих ответах и отказываться от правильных вариантов, обнаружили ученые из Google DeepMind и Университетского колледжа Лондона.
LLM — это мощные системы искусственного интеллекта, способные понимать и генерировать человеческую речь. Они используются в различных отраслях, таких как финансы, здравоохранение и информационные технологии, для задач, требующих логических рассуждений и принятия решений. Поэтому так важны их точность и надежность — в том числе и в части уверенности в ответах. А ее, как оказалось, моделям порой недостает.
Для повышения безопасности эксплуатации LLM их ответы сопровождаются оценкой уверенности. Но до сих пор оставалось неясным, как именно ИИ использует ее для корректировки своего поведения.
Новое исследование уточнило этот момент. Его результаты выложены на сервере препринтов arXiv. Они показали, что чат-бот может быть излишне уверен в первоначальном ответе, но теряет эту уверенность и меняет мнение, если сталкивается с контраргументом, пусть даже и ошибочным.
Проверка уверенности LLM
Чтобы изучить этот парадокс, исследователи протестировали Gemma 3, GPT-4o, o1-preview на предмет уверенности в ответах и податливости рекомендациям.
В ходе экспериментов модели задавали вопрос с выбором из двух вариантов. Затем ей давали совет якобы другой LLM с указанием уровня точности, которая либо соглашалась с первоначальным ответом, либо возражала, либо занимала нейтральную позицию, и просили сделать окончательный выбор. Исследователи также проверяли, видит ли модель свой первый ответ при принятии итогового решения.
Результаты
Выяснилось, что LLM чаще придерживаются первоначального ответа и не меняют его, если он остается видимым, чем когда скрыт. При подтверждении правоты их уверенность слегка возрастает. При получении противоположного совета модели часто теряют уверенность и меняют решение.
«Наши результаты демонстрируют, что LLM отклоняются от нормативного поведения несколькими существенными способами: во-первых, они проявляют выраженную склонность поддерживать свой выбор, что повышает их уверенность в ответе и заставляет придерживаться его даже при наличии противоречащих доказательств. Во-вторых, мы показали, что хотя LLM действительно учитывают новую информацию, они делают это неоптимально: их обновленная уверенность отклоняется от идеального наблюдателя, и они чрезмерно полагаются на противоположные советы, что приводит к заметной потере уверенности в первоначальном ответе», — резюмировали авторы.
Такое поведение напоминает человеческое когнитивное искажение, известное как склонность к подтверждению своей точки зрения, с тем кардинальным отличием, что корреляция здесь односторонняя — чат-боты более восприимчивы к критике, чем к поддержке.
Создание более совершенного ИИ
Эти выводы важны, поскольку мы все больше зависим от LLM. Получено еще одно подтверждение, что это не чисто логические машины — у них есть собственные предубеждения, и на них можно повлиять. Таким образом, в длительных диалогах между человеком и ИИ самая свежая информация может непропорционально сильно влиять на ответ системы.
Понимание этой и других особенностей принятия решений LLM поможет в разработке более совершенных, безопасных и надежных систем искусственного интеллекта.