Российские исследователи разработали новый метод, позволяющий отличать тексты, написанные человеком, от материалов, сгенерированных искусственным интеллектом (ИИ). Об этом сообщается в материале, опубликованном Cornell University.

– Наш метод дает ценную информацию о том, чем тексты из различных моделей отличаются от написанных человеком. В данном исследовании мы показываем, что современные LLM имеют особый стиль письма, – говорится в публикации.

В отличие от большинства современных ИИ-детекторов, которые просто выдают вердикт «человек» или «ИИ», новая разработка разбивает текст на «атомарные» числовые признаки – многие из них можно интерпретировать в терминах, понятных человеку.

Необходимость в таких решениях выросла после появления языковых моделей вроде ChatGPT и LLaMA, которые все чаще используются не только в интернете, но и в студенческих и даже научных работах, публикуемых в серьезных изданиях.

В своей работе ученые Сколтеха, МФТИ, AIRI и других центров применили разреженные автокодировщики – архитектуру, позволяющую разложить поведение ИИ по понятным модулям. Это дало возможность проследить, какие особенности текста распознает алгоритм как признаки «искусственного» происхождения.

Так, например, было установлено, что большая языковая модель Gemma-2-2B склонна к многословию в финансовых текстах и использованию сложных синтаксических конструкций в научных. Это позволяет детектору выявлять ИИ-происхождение даже в случае, если пользователь пытался «маскировать» текст под человеческий.

Темы и теги

США Наука и Технологии

текст Cornell University детектор chatgpt искусственный интеллект llama российский ученый языковой модель