Descubren que la IA se entrena con un catálogo de miles de imágenes de abuso sexual a menores>

LAION-5B es una base de datos con más de 5.000 millones de imágenes extraídas de forma automática de la red. Esta 'mancha' en el catálogo agiliza que la IA pueda generar montajes de pornografía infantil, y a la vez descarta la teoría de cómo se pensaba que trabajan estas herramientas para producirlas: combinando pornografía de adultos con fotografías genéricas de niños. Pero los expertos se han topado con que, en realidad, no es así. Ya cuentan en su 'cerebro' con ejemplos claros de abusos con los que recrear y producir montajes.

La organización sin ánimo de lucro alemana, LAION, dueña del catálogo, matiza en su página web que su base de datos «no está curada» y que la «naturaleza no seleccionada del conjunto de datos» de los enlaces que contiene pueden dar lugar a «contenidos incómodos y perturbadores».

Por el momento, LAION ha retirado la base de datos, para asegurarse de que los contenidos que comparten «son seguros antes de volver a publicarlos». Las fotografías de abuso sexual infantil encontradas son una pequeña fracción de la base de datos LAION-5B, que contiene miles de millones de imágenes. Los investigadores estadounidenses explicaron que probablemente se agregaron sin intención cuando los creadores de la base de datos tomaron imágenes de las redes sociales y otras páginas web.

Sin embargo, a pesar de ser una pequeña porción de datos, el hallazgo de este contenido demuestra el desconocimiento actual sobre el conjunto de datos detrás de las herramientas de IA más poderosas. Por ejemplo, OpenAI nunca ha especificado de dónde obtiene el material de entrenamiento ChatGPT o el resto de sus herramientas.

Filtros para evitar la creación de contenidos delictivos

En el caso de Stable Diffusion, su creadora —Stability AI— incluye controles y una lista de palabras prohibidas para evitar que el motor se pueda utilizar para crear imágenes que muestren escenas de abuso sexual a menores. La compañía también explica que en las últimas versiones ha utilizado sólo una parte de las imágenes del catálogo de LAION-5B durante el entrenamiento.

 Su director ejecutivo, Emad Mostaque, se defendió el año pasado en The Verge explicando que «es responsabilidad de las personas si son éticas, morales y legales en la forma en que operan esta tecnología». «Las cosas malas que la gente crea… serán un porcentaje muy, muy pequeño del uso total», explicó entonces.

No es la primera vez que Stability AI se enfrenta polémicas sobre la forma de entrenar a sus herramientas. La compañía ya ha sido denunciada por usar material protegido por derechos de autor para entrenar sus modelos.