Российские ученые нашли способ научить нейросети распознаванию юмора

Ученые, в частности, предложили изменить подход к обучению и оценке моделей распознавания юмора.

"Нужны новые датасеты, более разнообразные и близкие к обычным разговорам, естественному общению. Большие языковые модели, обученные на огромных массивах данных разных типов, в среднем хорошо справляются с распознаванием юмора, и ученые предполагают, что дело именно в разнообразии данных, на которых они учились, - пояснили в университете.

Группа ученых работала под руководством доцента факультета компьютерных наук НИУ ВШЭ Павла Браславского и изучала, как существующие нейросетевые алгоритмы справляются с распознаванием разных форм человеческого юмора.

В ходе экспериментов исследователи оценили, как разные подходы к обучению языковых моделей и применяемые при этом наборы данных влияют на способность нейросети отличать юмор от обычных выражений.

Ученые изучили способность распознавать юмор как у относительно простых нейросетей, так и у передовых больших языковых моделей. Помимо стандартных тестов ученые проверили, смогут ли нейросети уловить смешную тональность или ее отсутствие в диалогах из произведений Льюиса Кэрролла, Чарльза Диккенса, Джерома К. Джерома, нескольких сериалов и в ироничных сообщениях из соцсетей.

И оказалось, что грустную "Лавку древностей" Диккенса ИИ считает наполненной смешными диалогами. А вдобавок выяснилось, что принимает за юмор все, что слишком непохоже на новости XXI века.

Но это все были алгоритмы, обученные на однообразных и объемных наборах данных. Зато нейросети, натренированные на наборах из небольших частей разных текстов, значительно успешнее справлялись с задачей распознавания юмора. По мнению ученых, это говорит о необходимости повышения разнообразия примеров юмора при обучении языковых нейросетей.