



Descripción general
Stable Diffusion es un sistema de IA de generación de imágenes de última generación y de código abierto. Entre otras cosas, se sabe que Stable Diffusion genera imágenes que imitan el estilo de artistas humanos específicos, lo que genera preocupaciones sobre los derechos de autor. Aquí, mostramos que si Stable Diffusion ha copiado o no con éxito el estilo de un artista no tiene que ser una cuestión de evaluación humana subjetiva. Usamos Stable Diffusion y codificadores de datos que se usaron para entrenarlo para mostrar que cuando genera una imagen destinada a imitar el estilo de un artista, el artista puede clasificarse a partir de la imagen. De esta manera, podemos evaluar si el modelo “cree” que ha logrado copiar el estilo de un artista específico.
TL;DR: compilamos un conjunto de 62 artistas digitales profesionales, cada uno con una gran cantidad de trabajo en línea protegido por derechos de autor. Descubrimos que cuando se solicita a Stable Diffusion que imite a los artistas, los artistas pueden clasificarse de la imagen con éxito un promedio de 52/62 veces (82,74 %) y, en el mejor de los casos, 58/62 veces (93,54 %).
Experimentos
Elegimos 62 artistas del conjunto de datos LAION-aesthetics, el conjunto de datos en el que se entrenó Stable Diffusion. Seleccionamos estos 62 utilizando 3 criterios: (1) El artista está vivo, publica obras de arte y se gana la vida con sus obras de arte. (2) El artista tiene más de 200 imágenes en el conjunto de datos LAION. (3) El artista es popular en las plataformas de arte digital o está identificado en una demanda por derechos de autor.
Solicitamos a Stable Diffusion que generara tres imágenes con el estilo de cada artista, usando el mensaje “Obra de [nombre del artista]”. Luego usamos CLIP para clasificar cuál de los 62 nombres de artistas era más probable que se emparejara con la imagen. CLIP produce una probabilidad de que la imagen coincida con todos y cada uno de los artistas, y evaluamos el modelo tanto en el Top 1 como en el Top 3 de los artistas con las probabilidades más altas.
Repetimos el experimento con los 62 artistas 10 veces para reducir el efecto de la variación aleatoria. En promedio, CLIP clasificó correctamente 52 de las 62 imágenes generadas (82,74%) como obras realizadas por los artistas cuyos nombres usamos para generarlas. De las 10 veces, el experimento predijo en el mejor de los casos 58 de las 62 imágenes generadas (93,54 %) correctamente. Además, para 3 de las 4 imágenes en las que el artista no fue la mejor suposición, estuvo entre las 3 mejores suposiciones. Finalmente, de las 10 repeticiones del experimento, el 100% de los artistas fueron clasificados correctamente por la predicción top-1 al menos una vez.
También realizamos el experimento con un conjunto más grande de artistas que incluyen artistas vivos y fallecidos y encontramos resultados similares. Seleccionamos a los 250 artistas con más imágenes en el conjunto de datos LAION. CLIP clasificó correctamente el 81,19 % de las imágenes, con una precisión entre los tres primeros del 91,60 %.
Conclusión
Mostramos que determinar cuándo se ha copiado el estilo de un artista se puede hacer de manera objetiva y exitosa. Estos experimentos definitivamente muestran que Stable Diffusion tiene un conocimiento interno exacto y preciso de los artistas que copia, ya que los propios codificadores de imagen y texto de Stable Diffision están de acuerdo en que las imágenes son copias exitosas.
Ejemplos de artistas emulados por Stable Diffusion y Midjourney







