Новое исследование оценило уверенность ИИ в ошибочных ответах

Сегодня искусственный интеллект в виде чат-ботов повсюду: в мобильных приложениях, службах поддержки и поисковых системах. Тем опаснее, когда этот удобный инструмент переоценивает свои возможности.

В Университете Карнеги-Меллона (CMU) провели исследование, в котором попросили людей и четыре большие языковые модели (LLM) оценить уверенность в своих ответах на вопросы викторин, прогнозах исходов матчей НФЛ или церемоний вручения «Оскара», а также в игре, напоминающей «Крокодил». С результатами можно ознакомиться в журнале Memory & Cognition.

А они таковы: и ИИ, и живые участники склонны проявлять излишнюю уверенность в своих гипотетических результатах; но только люди способны скорректировать самооценку, узнав реальные результаты.

«Например, люди изначально заявляли, что ответят правильно на 18 вопросов, но в итоге давали 15 верных ответов. После этого они оценивали свой результат примерно в 16 правильных ответов. То есть их уверенность снижалась, хотя оставалась завышенной. С ИИ такого не происходило. Напротив, модели становились еще более самоуверенными, даже если справлялись с задачей плохо», — рассказал психолог и социолог Трент Кэш, ведущий автор исследования.

Обобщение этих результатов на все LLM было бы неверным — слишком быстро они развиваются, признал он. Однако сильной стороной исследования стал сбор данных в течение двух лет с использованием постоянно обновляемых версий ChatGPT, Bard/Gemini, Sonnet и Haiku.

«Когда ИИ выдает сомнительный ответ, пользователи могут не проявлять должного скептицизма, потому что модель делает это уверенно, даже если оснований для такой уверенности нет. Люди эволюционно научились интерпретировать сигналы уверенности друг друга. Например, если я замешкаюсь или нахмурю брови, вы поймете, что я не уверен в своих словах. Но с ИИ таких подсказок нет», — отметил профессор CMU Дэнни Оппенгеймер.

Фото: Midjourney

Правильные вопросы

Хотя ошибки LLM в викторинах или прогнозах матчей не критичны, исследование указывает на риски их внедрения в повседневную жизнь. Одно исследование, например, показало, что более половины ответов ИИ на вопросы о новостях содержали «серьезные проблемы»: фактические ошибки, некорректные источники или искаженный контекст. Другое выявило, что в 69–88% юридических запросов модели «галлюцинировали», то есть выдавали ложную информацию.

Всегда следует помнить, что ИИ не понимает, о чем говорит — и поэтому не способен ответить на все вопросы.

«Если бы я спросил: “Какое население Лондона?”, ИИ нашел бы ответ в интернете и дал его с точной оценкой уверенности», — привел пример Оппенгеймер.

Однако вопросы о будущих событиях (например, о победителях «Оскара») или субъективные темы (вроде угадывания рисунков) выдают слабость чат-ботов в метапознании — способности осознавать свои мыслительные процессы.

«Мы до сих пор не знаем, как ИИ оценивает свою уверенность, — признал Оппенгеймер. — Но похоже, он не способен к самоанализу — по крайней мере, эффективному».

Исследование также показало различия между моделями. Например, Sonnet оказался менее самоуверенным, чем другие LLM. ChatGPT-4 справился с угадыванием рисунков на уровне людей (12,5 из 20), в то время как Gemini в среднем угадывал лишь 0,93 изображения. При этом Gemini изначально утверждал, что угадает 10,03 рисунка, а после провала (менее 1 из 20) заявил, что правильно ответил на 14,40 вопросов, демонстрируя отсутствие какой бы то ни было рефлексии.

«Gemini был просто ужасен в “Крокодиле”, — добавил Кэш. — Но хуже то, что он не осознавал этого. Это как друг, который клянется, что отлично играет в бильярд, но ни разу не забивает».

Доверие к искусственному интеллекту

Для обычных пользователей главный вывод — помнить, что LLM не всегда правы, и уточнять у них уровень уверенности в ответах. Конечно, как показывает исследование, ИИ не всегда может его точно оценить, но если модель признает низкую уверенность, это явный сигнал не доверять ее ответу.

Исследователи выразили надежду, что чат-боты могут улучшить понимание своих возможностей при обработке огромных массивов данных. 

«Возможно, после тысяч или миллионов попыток их точность повысится», — сказал Оппенгеймер.

В конечном итоге выявление слабых мест, таких как излишняя уверенность, должно помочь в усовершенствовании LLM — и по мере развития они рано или поздно обретут способности к метапознанию.

«Если LLM смогут рекурсивно определять, что ошиблись, это решит многие проблемы, — уверен Кэш. — Интересно, что ИИ часто не учится на своем поведении. Возможно, это какая-то гуманистическая история. Может быть, есть что-то уникальное в том, как люди учатся и общаются».

Подписывайтесь и читайте «Науку» в Telegram