Платформы выступают против использования своего контента для обучения нейросетей
Денис Кузнецов, заместитель заведующего лабораторией нейронных систем и глубокого обучения Института ИИ МФТИ, отмечает, что появление подобных инцидентов - закономерный этап в развитии правового регулирования сферы. Последние несколько лет крупные языковые модели обучались преимущественно на открытых данных, многие из которых были получены с публичных платформ.
Однако само понятие "публичности" является юридически неустойчивым: то, что доступно в интернете, не всегда может свободно использоваться в коммерческих целях, особенно в рамках обучения систем с последующей монетизацией.
"Судебные иски, подобные подаче Reddit против Anthropic - попытка установить границы допустимого использования цифрового контента и выработать правовые прецеденты, которые могут лечь в основу будущего регулирования. Это отражает рост ценности данных как стратегического актива - они становятся не просто источником информации, но и объектом собственности и торговли", - рассказал эксперт.
Валерия Боженова, старший преподаватель департамента больших данных и информационного поиска факультета компьютерных наук НИУ ВШЭ, указывает, что без обучающих данных ИИ-система не может выполнять интеллектуальные задачи, для решения которых она предназначена.
Источником обучающих данных часто становится интернет - сайты, блоги и социальные сети. Когда данные охраняются как результаты интеллектуальной деятельности, возникает риск нарушения исключительных прав.
Воспроизведение и переработка - это способы использования произведения, на которые по общему правилу необходимо получить разрешение правообладателя и выплатить ему вознаграждение.
"Развитие ИИ - одна из приоритетных национальных задач. Сейчас случаи свободного использования, закрепленные в российском законодательстве, не охватывают действия, связанные с обучением моделей. Это может создавать барьеры для развития направления. В правовой практике ведутся дискуссии о возможности внесения изменений в законодательство, которые бы устраняли этот пробел и позволяли бы учитывать интересы обеих сторон", - добавляет Боженова.
В МФТИ отмечают, что и в России существует риск аналогичных судебных исков: крупнейшие отечественные цифровые платформы, такие как VK, Яндекс или Сбер, уже осознали стратегическую ценность пользовательских данных и стремятся контролировать их использование.
"С учетом международных прецедентов, российские компании, возможно, также начнут ограничивать или запрещать использование своего контента для обучения внешних моделей. Это особенно вероятно на фоне усиления тренда на цифровой суверенитет и конкуренцию между ИИ-экосистемами", - рассказал Денис Кузнецов.
Эксперт добавляет, что для исследовательского и стартап-сообщества это может создать риски: нужно формировать правовой механизм, обеспечивающих прозрачный и легальный доступ к данным для целей обучения моделей.
"Судя по выступлениям на конференции ЦИПР в этом году, государство планирует активно участвовать в создании и предоставлении датасетов для обучения ИИ. Особенно в таких областях, как образование, наука и медицина. Если получится эффективно организовать этот процесс, то появится мощный стимул для развития отечественного ИИ. Важно, чтобы эти данные не были монополизированы, а были доступны для широкого круга разработчиков", - рассказал совладелец интегратора решений на базе ИИ "Металаб" Сергей Батулин.
По мнению эксперта, такая практика может усилить развитие частных датасет-сервисов на рынке. Например, если государственные компании будут монополизировать данные, это создаст спрос на частные датасет-сервисы. Небольшие стартапы будут искать способы создавать свои собственные наборы данных, чтобы конкурировать с крупными игроками. Например, в строительной отрасли, где нет явных монополистов, несколько компаний могут объединиться, чтобы создать общий датасет для обучения, добавляет Батулин.