ИИ свел на нет достоверность исследований человеческого поведения

Онлайн-анкетирование захлестнула волна ответов, сгенерированных искусственным интеллектом, что потенциально сводит на нет пользу этого жизненно важного для ученых источника данных.

Платформы вроде Prolific платят участникам небольшие суммы за ответы на вопросы исследователей. Они популярны среди академических работников как простой способ привлечения участников для поведенческих исследований.

В Институте развития человека Макса Планка заметили, что респонденты таких опросов стали использовать ИИ для генерации ответов, и решили проверить, несколько распространено это пагубное для науки явление. Результаты исследования опубликованы на сервере препринтов arXiv.

«Показатели, которые мы наблюдали, были действительно шокирующими», — призналась психолог Анне-Мари Нуссбергер.

Оказалось, что 45% участников, которым задали один открытый вопрос на Prolific, скопировали и вставили содержимое в поле для ответа. По мнению исследователей, эти ответы сгенерированы ИИ-чат-ботами.

Углубленный анализ содержания ответов выявил более очевидные признаки использования ИИ, такие как «чрезмерно многословный» или «явно нечеловеческий» язык.

«Судя по данным, которые мы собрали в начале этого года, значительная часть исследований, по-видимому, искажена», — посетовала Нуссбергер.

В следующем этапе исследования ученые добавили ловушки для выявления тех, кто использует чат-боты. Тесты reCAPTCHA для различения людей и ботов выявили 0,2% недобросовестных участников. Более продвинутая reCAPTCHA, использующая информацию о прошлой активности пользователей в дополнение к текущему поведению, отсеяла еще 2,7%. Вопрос, невидимый для людей, но читаемый ботами, с просьбой включить в ответ слово «фундук», обнаружил еще 1,6%, а запрет на копирование и вставку помог идентифицировать дополнительные 4,7% людей.

«Нам нужно не полностью отказываться от доверия к онлайн-исследованиям, а реагировать и действовать», — убеждена Нуссбергер.

Это ответственность исследователей, которые должны с большим подозрением относиться к ответам и принимать контрмеры для предотвращения поведения с использованием ИИ.

«Но что действительно важно, я также считаю, что большая ответственность лежит на платформах. Им необходимо отреагировать и очень серьезно отнестись к этой проблеме», — заключила исследовательница.

«Качество поведенческих онлайн-исследований уже подвергалось сомнению из-за участников опросных сайтов, которые искажали свои данные или использовали ботов для получения денег или ваучеров, не говоря уже о достоверности удаленных самоотчетов для понимания сложной человеческой психологии и поведения. Исследователям необходимо либо коллективно разработать способы удаленной проверки человеческого участия, либо вернуться к старому подходу с личным контактом», — прокомментировал Мэтт Ходжкинсон, независимый консультант по исследовательской этике.

Подписывайтесь и читайте «Науку» в Telegram

Темы и теги

Британия Наука и Технологии

исследование поведение достоверность ответ человеческий Анне-Мари Нуссбергер Prolific исследователь поведенческий