Даже самые лучшие модели ИИ начали испытывать галлюцинации
Все генеративные модели ИИ, начиная с Gemini от Google, Claude от Anthropic и заканчивая последней версией GPT-4o от OpenAI, галлюцинируют. Иными словами, модели ошибаются. Иногда это смешно, а иногда не очень. Но не все модели делают это одинаково. И то, какую ложь они выдают, зависит от того, на каких источниках информации они обучались.
В недавнем исследовании, проведенном учеными из Корнелла, университетов Вашингтона и Ватерлоо и некоммерческого исследовательского института AI2, была предпринята попытка сравнить так называемые, галлюцинации ИИ, проверив ответы модели типа GPT-4o по самым разным темам — от права и здравоохранения до истории и географии.
Они обнаружили, что ни одна модель не показала точных результатов по всем темам, и что модели, которые меньше всего галлюцинировали, делали это отчасти потому, что отказывались давать ответы, которые в противном случае были бы неверными.
«Самый важный вывод заключается в том, что мы пока не можем полностью доверять ответам ИИ, — сказал Вентинг Чжао, докторант из Корнелла и соавтор исследования. — В настоящее время даже самые лучшие модели могут генерировать текст без галлюцинаций лишь в 35% случаев».
Были и другие попытки проверить «правдивость» ИИ, включая проведенную командой исследователей, связанной с AI2. Но Чжао отмечает, что в ходе этих тестов моделям задавались вопросы, ответы на которые легко найти в «Википедии». Это не так уж сложно, особенно учитывая, что большинство моделей обучаются именно на этих данных.
Чтобы усложнить тест и более точно отразить типы вопросов, которые люди задают моделям, исследователи определили темы, на которые нет ссылок в «Википедии». Они затрагивают такие темы, как культура, география, астрономия, поп-культура, финансы, медицина, информатика и жизнь знаменитостей. Ответы на более половины вопросов в их тесте там отсутствуют. Для убедительности они включили и несколько вопросов из «Википедии».
Для своего исследования ученые проанализировали более десятка различных популярных моделей ИИ, многие из которых были выпущены в прошлом году. Помимо GPT-4o, они протестировали «открытые» модели, такие как Llama 3 70B от Meta* (запрещена и признана экстремистской на территории РФ), Mixtral 8x22B от Mistral и Command R+ от Cohere, а также Sonar Large (которая основана на Llama) от Perplexity, Gemini 1.5 Pro от Google и Claude 3 Opus от Anthropic.
Полученные результаты говорят о том, что ИИ галлюцинируют не так уж и часто, несмотря на утверждения об обратном со стороны OpenAI, Anthropic и других крупных игроков генеративного ИИ. GPT-4o и гораздо более старый флагман OpenAI GPT-3.5 показали примерно одинаковые результаты по проценту вопросов, на которые они ответили фактически правильно. При этом GPT-4o оказался немного лучше. Модели OpenAI оказались самыми правдивыми, за ними следуют модели Mixtral 8x22B, Command R и Sonar.
Вопросы, связанные со знаменитостями и финансами, дались моделям труднее всего, а вот на вопросы по географии и информатике искусственный интеллект отвечал лучше всего. Возможно, потому, что в их обучающих данных было больше ссылок на эти темы. В тех случаях, когда источником ответа не была «Википедия», все модели отвечали в среднем менее правдиво, особенно GPT-3.5 и GPT-4o, что говорит о том, что все они в значительной степени опираются на материалы «Википедии».
Даже модели, способные искать информацию в интернете, такие как Command R и Sonar от Perplexity, справились с ответами, которых нет в «Википедии». Размер модели при этом не имел большого значения. Маленькие модели, например, Claude 3 Haiku от Anthropic, галлюцинировали примерно так же часто, как и большие, якобы более способные модели, такие как Claude 3 Opus.
Более милосердный подход заключается в том, что используемые учеными эталоны не подходят для этой цели. Многие, если не большинство, оценок ИИ являются преходящими и лишенными важного контекста. По мнению Чжао, проблема галлюцинаций «сохранится надолго». «Эмпирические результаты нашей работы показывают, что, несмотря на обещание уменьшить или устранить галлюцинации, фактическое улучшение ограничено, — сказала она.
«Кроме того, наш анализ показывает, что даже знания, найденные в интернете, часто могут быть противоречивыми, отчасти потому, что обучающие данные, авторами которых являются люди, также могут содержать ошибки», — добавила Чжао. Промежуточным решением может стать программирование моделей таким образом, чтобы они чаще отказывались отвечать.
В ходе тестирования Claude 3 Haiku ответил лишь на 72% заданных ему вопросов, предпочтя воздержаться от остальных. Если учесть воздержавшихся, то именно эта модель ИИ оказалась самой правдивой из всех.
Чжао считает, что следует уделять больше времени и усилий исследованиям, направленным на снижение количества ошибок. Полностью устранить галлюцинации, возможно, и не удастся, но их количество можно уменьшить с помощью проверки фактов и цитирования в процессе разработки модели, утверждает она.
«Необходимо чтобы в процессе проверки и подтверждения информации, генерируемой ИИ, всегда принимали участие эксперты, — добавила Чжао. — В этой области существует масса возможностей, например, разработка продвинутых инструментов проверки фактов для любого текста, предоставление ссылок на фактический контент и предложение исправлений для текстов, содержащих ошибки».
Ранее американский финансовый конгломерат, один из крупнейших банков мира, JPMorgan Chase внедрил ИИ-ассистента на базе ChatGPT от OpenAI, что является начальным этапом плана финансового гиганта по внедрению технологии во все сферы деятельности. Программа, получившая название LLM Suite, уже доступна более чем 60 тыс. сотрудников финансового гиганта и помогает им решать такие задачи, как написание электронных писем и отчетов.