Un informe danés revela que los modelos de IA generativa se han entrenado con contenido pirateado

El informe, titulado 'Report on Pirated Content Used in the Training of Generative AI', asegura que las empresas que han lanzado al mercado modelos de IA generativa han recurrido a conjuntos de datos obtenidos de sitios piratas como LibGen, Anna's Archive y Books3, en el caso de los libros; OpenSubtitles para subtítulos de películas y televisión; Watchseries y Youtube para vídeos, y Common Crawl para conseguir texto alojados en sitios web, incluyendo publicaciones de prensa y letras de canciones. El informe incluye Common Crawl porque, si bien no es un sitio pirata en el sentido tradicional, nunca ha obtenido permisos para copiar y distribuir la cantidad de contenido protegido que aloja.

Uno de los conjuntos de datos más utilizados es Books3, que contiene más de 196.000 libros en texto plano, obtenidos del sitio pirata Bibliotik.me. Se distribuye a través de BitTorrent y por individuos en varias plataformas en línea y servidores. Este conjunto de datos ha sido empleado por empresas como Apple, Anthropic, Meta y Microsoft para entrenar sus modelos de lenguaje, sostiene el informe. Otro conjunto de datos relevante que ha sido utilizado es OpenSubtitles, que incluye subtítulos de películas y series obtenidos de OpenSubtitles.org, un sitio conocido por alojar contenido pirateado.

Se hace mención también a casos como el de Runway AI, que ha desarrollado y proporcionado acceso a un modelo de generación de videos llamado Gen3-alpha. Esta IA utilizó un software para copiar miles de vídeos de YouTube sin el consentimiento de los creadores. Asimismo, Suno Inc, una empresa de generación de música, fue demandada por varias compañías discográfica de EE.UU. por haber violado derechos de autor al reproducir sus grabaciones protegidas sin permiso. Suno admitió haber entrenado su modelo con «decenas de millones de grabaciones» obtenidas de internet; según el informe, probablemente obtuvieron las grabaciones directamente desde 'cyberlockers' o mediante tecnología BitTorrent.

Este informe se hace público en Dinamarca unas semanas después de que el Ministerio de Cultura optara por retirar el real decreto que pretendía regular los derechos de autor en el desarrollo de modelos de IA generativa. El decreto, que buscaba garantizar que el desarrollo de ALIA, la IA generativa española, se acogiera al respeto a los derechos de autor, incluía una figura no explotada hasta el momento en España, la licencia colectiva ampliada. Esto permitía a las entidades de gestión colectiva otorgar licencias para el uso de los contenidos de sus repertorios y de los que no forman parte de su repertorio, salvo oposición expresa de los autores.

Esta vía provocó una profunda división en el sector. Dentro de las propias entidades de gestión de derechos de autor, había algunas como la SGAE, que apoyaban la figura de la licencia colectiva ampliada, otras como Agedi, se oponían a este mecanismo. Varias asociaciones autorales también se opusieron a este sistema. A esta división del sector hay que sumar las fuertes presiones a Moncloa por parte de las grandes empresas tecnológicas, que se oponen a pagar licencias por el uso de contenido protegido para entrenar sus modelos de IA.