I – Robo y lavado de datos.

Margaret Mitchell, investigadora centrada en el machine learning (ML) y el desarrollo de IA, comentaba en 2022 sobre la relevancia de Common Crawl en el desarrollo de los modelos de IA generativa.

«Los datos para el aprendizaje automático se recopilan utilizando los archivos que pone a disposición Common Crawl. Al igual que la mayoría de los grandes conjuntos de datos, LAION se ha creado a partir de datos de Common Crawl. Y Common Crawl no solicita consentimiento ni guarda información adicional del usuario para obtenerla a posteriori. Common Crawl es la fuerza oculta, aunque no secreta, detrás de los conjuntos de datos de aprendizaje automático modernos, que se extraen de CC y luego (a veces) se filtran. Empresas de IA como Stability AI no existieran si Common Crawl no existiera.»

Common Crawl | Infografía y explicación realizada por Benjamin Harbakk (@stealcase), programador y artista, en 2022

1. Common Crawl scrapes the internet . The infographic shows a bunch of website logos like Deviantart, Flickr, artstation, pinterest, shopify, shutterstock, + the whole internet.

2. LAION sorts that data into URL + Metadata pairs.

3. img2dataset downloads the images with the URLs, but doesn’t respect “noai”.

Infografía y explicación realizada en 2022 por Benjamin Harbakk (@stealcase), programador y artista

Normalmente, un buen desarrollador que crea un rastreador web respetará directivas como «noindex», «noai» y «nofollow». Estas palabras indican a los bots que «esta página no es para ti». El softwareimg2dataset NO respeta esto. El comportamiento predeterminado es: ignorar las directivas y descargar independientemente. En noviembre de 2023, uno de los colaboradores del software intentó implementar el soporte para las directivas. El jefe de IA de DeviantArt también intervino en este asunto, pero el propietario del repositorio de Github desestimó sus opiniones. Ahora hay que «optar por participar» para respetar las directivas. La opción predeterminada es robar.

The Problem:

Currently the default behaviour of img2dataset is to ignore x-robots-tag and robots.txt directives.
It does not honor «nofollow» and «noindex», nor «noai» and «noimageai».

This goes against the Terms of Use for Common Crawl, the dataset that all LAION datasets are based on, and one of the most popular datasets used with this tool. https://commoncrawl.org/terms-of-use/

Common Crawl does not care for directives like «noai» and «noimageai», because they do not have any knowledge that the data they index will be used for AI purposes. img2dataset does not have this excuse. This tool is used mainly for Machine Learning. There was a suggestion to implement this 3 weeks ago, but the ultimate decision was to keep the default of ignoring «x-robots-tag». #218

This is an antipattern, and can in certain cases involve breaking the law. Users of img2dataset typically don’t want to break the law or Terms of Use unintentionally and without knowledge.

This should be rectified. The time between a dataset is created and an image is downloaded can result in changes on the web: it is not enough to rely on LAION to filter “noai” tags.

The Sollution:

Respect x-robots-tag by default.


Originalmente, las FAQs de Stability AI incluían un punto que decía textual:

Can artists opt-in or opt-out to include their work in the training data?

There was no opt-in or opt-out for the LAION 5b model data. It is intended to be a general representation of the language-image connection of the Internet.

In the future, for other models, we are building an opt-in and opt-out system for artists and others that services can use in partnership with leading organisations. This model learns from principles, so the outputs are not direct replicas of any single piece.

A este punto ahora solo se accede a través de https://web.archive.org/web/20230201001440/https://stability.ai/faq porque fue eliminado del sitio. De hecho eliminaron toda la sección FAQs.


Data lavada | fragmento de Autoría y Autoencoders, de Santiago Caruso

La empresa LAION (Large-scale Artificial Intelligence Open Network) bajo la figura de non-profit obtuvo permisos para hacer raspaje de datos en internet (data scraping) como aparente método de investigación. A través de este procedimiento sistematizaron una base de datos usando un software llamado CLIP, que listó pares deimagen+texto a partir de la captura del exorbitante volumen de 5.8 mil millones de imágenes, cuyos derechos de propiedad intelectual pertenecen a sus creadores o a las personas que figuran en ellas. Pero LAION se ha fungido como facilitador de esa data a terceros, como Stability AI, que fue una de las empresas que la financió en primer lugar. 

«Stability AI creó el popular generador de IA, de texto a imagen, Stable Diffusion, financiando su desarrollo, por el grupo de investigación Machine Vision & Learning, de la Universidad Ludwig Maximilian de Múnich. En su informe del proyecto, los investigadores de LMU agradecen a Stability AI por la “generosa donación de recursos informáticos” que lo hizo posible. Los conjuntos de datos masivos de texto+imagen utilizados para entrenar Stable Diffusion, Imagen de Google y el componente de texto a imagen de Make-A-Video tampoco fueron creados por Stability AI. Todos proceden de LAION, una pequeña organización sin fines de lucro registrada en Alemania. Stability AI también financia directamente los recursos informáticos de LAION»

AI Data Laundering: How Academic and Nonprofit Researchers Shield Tech Companies from AccountabilityAndy Baio – 2022

Mohammad Emad Mostaque es el fundador y, actualmente, ex CEO de Stability AI, la empresa desarrolladora de Stable Diffusion. Él mismo lo confirmó en su perfil de X (ex Twitter): «I funded LAION, underlying dataset for both Stable Diffusion and Craiyon»

Así es como las Big Tech crean/financian organizaciones sin fines de lucro, con permiso para crear estos conjuntos de datos o modelos con «fines de investigación» Esto les permitió eludir el reconocimiento de los derechos de autor en la captura inicial de los mismos. Los modelos de datos creados se ceden o venden a empresas con fines de lucro, que los monetizan en API. Estas API se venden a otras personas o grupos comerciales por miles de millones de dólares. 

El fundador de Stability AI, Emad Mostaque, básicamente dijo que
pasarían por alto los FIREWALLS para obtener datos privados
para IA generativa cuando los datos públicos se agoten.
Martin Podt (fotógrafo) a Emad Mostaque:
«Sure, you can get a license for the thousands of my photos you have
been using so far. Send me a PM and we will arrange something»

Las denuncias por el plagio masivo detrás de las IA generativas: también usan creaciones de fotógrafos españoles | por Marilín Gonzalo para Newtral

Así sabemos que Stable Diffusion fue entrenado con tres conjuntos de datos masivos recolectados de la web por LAION, una organización alemana sin fines de lucro que ha sido financiada por Stability AI, como ha dicho su mismo CEO

Se calcula que la versión actual de LAION (LAION-5B) contiene 5.800 millones de imágenes. Como no es accesible para cualquier usuario descargar o analizar esta cantidad masiva de datos, dos tecnólogos, Andy Baio y Simon Willison descargaron unas 12 millones de esas imágenes de LAION y construyeron un buscador al que llamaron Datasette para que cualquiera pueda buscar en la base de datos usada para entrenar esta IA.

En ella hemos encontrado los 55 fotógrafos y reporteros gráficos que están al final de este reportaje, pero pueden ser muchos más. Hay que recordar que es sólo un porcentaje del total de imágenes que pueden haber sufrido el plagio de esta IA generativa: un 0,5% de las 2.300 millones de imágenes sobre las que fue inicialmente entrenado.

En LAION, el dataset con el que se entrenó Stable Diffusion hay al menos 45 imágenes con autoría de Emilio Morenatti | Captura: Newtral

• Lavado de datos en los grandes modelos de lenguaje 

Baio además analizó una de las bases de datos (WebVid-10M) con la que Meta entrenó Make-A-Video, su herramienta de IA generativa de vídeos y encontró que también se utilizaron conjuntos de datos académicos no comerciales para entrenar un modelo. Aunque no sabemos si están haciendo actualmente dinero con esta IA generativa y por lo tanto aún no se puede hablar de plagio, Baio no duda en llamar a esto un «lavado de datos de la IA» y denuncia que se ha convertido en una práctica habitual que las empresas tecnológicas que trabajan con IA utilicen comercialmente conjuntos de datos y modelos recopilados y entrenados por entidades de investigación no comerciales, como universidades u organizaciones sin ánimo de lucro. En algunos casos, como el de Stability AI con LAION, financian directamente esa investigación.


Mike Scholtis publica en Facebook la evidencia de la toma de imágenes que hizo LAION de plataformas de obras de arte como Artstation y Pinterest

The following database was used and created to train Stable Diffusion. This database writes in its FAQ that it has no image links on its server, but only serves as a processing source that displays data from other sources.

As you can see on the link, we are searching for «ArtStation» because image descriptions are used to sort images. What we find there is for example «ArtStation – Owner of Old Grimoire Store ADV» (Legend of the Cryptids) made by Eric Guerrero Salcedo. I have asked Eric Guerrero Salcedo if he has given his consent on ArtStation to load images into AI databases (NoAI is supposed to be set by default, remember?). I have included the conversation with him in the post here. I have written with him in Spanish.

Eric Guerrero Salcedo confirms that he didn’t know about this setting and only recently activated it after I showed him where to do it. So it was not active by default? Standard opt-out? (have a look at the screenshot in the article what ArtStation says about it… unbelievable)

Then i looked further at the laion-aesthetic.datasette.io and noticed something. When we share images on social networks, for example, the source image is taken as a preview from the respective page. Now I realize that many also like to share from ArtStation on Pinterest and the process is different on Pinterest. We not only share the image but upload it to the Pinterest server by sharing it. (I don’t talk about uploading on Pinterest, I talk about sharing). So the source file is taken over. Let’s see what the database has to say about it

i.pinimg.com = 1.043.949 image_counts !!!
cdnb.artstation.com = 3001 = image_counts
cdna.artstation.com = 3018 = image_counts

So, as far as I understand it, Pinterest is one of the big sources of AI databases that no one is talking about?

Love that Quote: «We believe artists should be free to decide how their art is used, and simultaneously we don’t want to become a gatekeeper with site terms that stifle AI research and commercialization when it respects artists’ choices and copyright law» ArtStation


Sumamos aquí la lista de todos los dominios de donde LAION hizo minería o raspaje de datos para su base de datos inicial.


Generative AI is a technology developed based on the theft of copyrighted works.



Alianza entre LAION y Stable Horde para desarrollo de otro modelo generativo de imagen con esta misma base de datos.