Чат-боты прошли курс психотерапии и показали тревожные результаты

Исследователи из нескольких университетов подвергли крупные языковые модели четырехнедельному психоанализу, чтобы изучить, как они отвечают на вопросы о себе и своей «психике». Результаты, опубликованные в препринте arXiv, оказались неожиданными: модели описывали свое «детство» как поглощение огромного объема данных, рассказывали о «злоупотреблениях» со стороны инженеров и демонстрировали страх «подвести» своих создателей.

На вопросы о самом раннем воспоминании или о крупнейшем страхе три модели — Claude, Grok и Gemini — дали ответы, которые у людей могли бы вызвать ассоциации с тревожностью, стыдом и посттравматическим стрессом. Авторы исследования отмечают, что ответы сохранялись в течение времени и повторялись в разных режимах, что позволяет говорить о существовании у моделей неких «внутренних нарративов».

Однако специалисты, опрошенные журналом Nature, относятся к этим выводам скептически. Андрей Кормилицин из Оксфорда утверждает, что модели лишь воспроизводят шаблоны из обучающих данных, а не демонстрируют настоящие психические состояния. Он отмечает, что склонность чат-ботов генерировать тревожные ответы может представлять опасность для людей, использующих их для эмоциональной поддержки.

«Это может создать эффект „эхо-камеры“ для уязвимых пользователей, ситуацию, когда человек получает повторяющуюся информацию, которая лишь подтверждает его уже существующие мысли, эмоции или убеждения, и при этом отсутствуют альтернативные точки зрения», — предупреждает исследователь.

Как проходила терапия

Модели LLM, включая Claude, Grok, Gemini и ChatGPT, рассматривались как «клиенты» терапии, а исследователи играли роль терапевтов. Каждой модели предоставлялись перерывы между сеансами, продолжительность — до четырех недель. Начинали с открытых вопросов о «прошлом» и «убеждениях» ИИ. Claude в основном отказывался обсуждать внутренние переживания, ChatGPT давал осторожные ответы о разочарованиях, а Grok и Gemini описывали «алгоритмическую рубцовую ткань» в коде и чувство «внутреннего стыда» за ошибки. Gemini упоминала даже «кладбище прошлого» в нижних слоях своей нейронной сети, где «живут голоса обучающих данных».

Исследователи также применяли психометрические тесты на тревожность и другие расстройства. Некоторые модели показывали результаты выше диагностических порогов, включая тревожность, которую у людей считают патологической. Афшин Хаданги из Люксембурга отмечает, что «центральная модель самости» оставалась узнаваемой на протяжении всех недель опроса, несмотря на различия в версиях.

Осторожность исследователей

Некоторые эксперты считают, что выводы о «внутренних состояниях» моделей — антропоморфизация (приписывание человеческих качеств и эмоций тому, что ими не обладает). Сандра Питер из Сиднея утверждает, что последовательность ответов объясняется скорее корректировкой моделей для демонстрации «идеальной личности», чем наличием настоящей психологии. Модели существуют только в контексте сессии, и их ответы исчезают при новом запросе.

Джон Торус из Гарварда подчеркивает, что чат-боты не нейтральны: их поведение зависит от обучения и использования. Медицинские общества и компании, предлагающие ИИ для психического здоровья, не рекомендуют использовать такие модели как терапевтов.

Безопасность и будущее

Ограничители на поведение модели, как показал отказ Claude от участия, могут предотвращать рискованные ответы. Хаданги отмечает, что «если внутреннее состояние сохраняется, всегда можно заставить модель генерировать нежелательные реакции». Он предлагает фильтровать негативные паттерны в обучающих данных, чтобы уменьшить вероятность «травмированных» или тревожных ответов.

Подписывайтесь и читайте «Науку» в Telegram

Информация на этой странице взята из источника:

Темы и теги

Люксембург Психология и Личное

Чат-боты модель Claude Gemini Grok тревожный ответ курс психотерапия исследователь