Ученые НГУ показали, что авторский стиль определяется по одинаковому объему текста для совершенно различных языков

Авторский стиль присущ писателям, журналистам и всем людям, пишущим тексты. Этот факт был широко известен филологам в течение десятилетий, но рассматривался в основном на качественном уровне. В последние годы профессор Факультета информационных технологий (ФИТ) НГУ, д.т.н. Борис Яковлевич Рябко вместе с коллегами и учениками разработал количественный метод определения авторского стиля, причем этот метод использует аппарат математической статистики, что позволяет определять достоверность полученных выводов.

В 2025 году Борис Рябко вместе с соавторами опубликовали работу Ryabko B., Savina N., Lulu Y.G., Han Y. The Amount of Data Required to Recognize a Writer’s Style Is Consistent Across Different Languages of the World // Entropy. — 2025. — Vol.27. — Iss. 10. — Art.1039. — ISSN 1099-4300, в которой, используя разработанный метод, показали, что минимальный объем текста, необходимый для определения авторского стиля, примерно одинаков для русского, английского, китайского языков и используемого в Эфиопии амхарского языка.

Эти языки относятся к очень далеким друг от друга языковым группам, и даже сам вопрос о сравнении длины текста не так прост для них. Например, буквы в русском языке не сопоставимы с иероглифами в китайском, так как каждый иероглиф может переводиться на русский язык целым словом, а иногда и предложением. Отметим, что в рассматриваемой работе для всех языков объем текста оценивался в килобайтах, то есть в одних и тех же единицах, — прокомментировал Борис Рябко.

Важно отметить, что   соавторы статьи Йешевас Гетачеу Лулу (Эфиопия) и И Хань Юньфей (Китай) учатся в аспирантуре ФИТ НГУ под руководством проф. Рябко Б.Я. Указанная работа опубликована в октябре в журнале, находящемся в первой четверти лучших научных журналов по частоте цитирования (Q1) по международной классификации, и, если судить по количеству прочтений, вызывает большой интерес.

Описанный в статье метод ранее применялся Рябко Б.Я. с коллегами для определения авторства литературных произведений (в некоторых случаях авторы произведений неизвестны или авторство сомнительно, как, например, у произведений Шекспира). Предложенный Рябко Б.Я. метод может найти практическое применение для оценивания качества различных переводов и квалификации переводчиков, в том числе и «компьютерных», а также может использоваться при решении вопросов, связанных с выявлением несанкционированных заимствований в текстах и других форм плагиата.

Качество перевода может существенно влиять на восприятие переведенного произведения. Предложенный подход применялся для анализа переводов литературных произведений. При этом подходе перевод тем лучше, чем в большей степени он сохраняет авторский стиль, причем эту «степень сохранения» можно оценить количественно. Еще одна важная новая область применения — оценивание качества «машинного», или «компьютерного» перевода, осуществляемого разными программами. Оно пока не проводилось, хотя такие переводчики играют довольно важную роль в жизни современного общества. Другая, более «прозаическая» область применения — определять части текста, написанного разными авторам, в том числе и фрагменты, написанные «искусственным интеллектом». Эта задача особенно актуальна для университетов, а может, уже и школ, где довольно интенсивно ведется борьба с плагиатом в студенческих работах. Описанный метод может быть применен и для решения этой проблемы, — пояснил Борис Рябко.