Una nueva investigación sugiere que las herramientas de marca de agua destinadas a bloquear las ediciones de imágenes de IA pueden ser contraproducentes. En lugar de detener modelos como la difusión estable para hacer cambios, algunas protecciones en realidad ayuda La IA sigue la edición de la edición más de cerca, lo que facilita aún más las manipulaciones no deseadas.
Existe una cadena notable y robusta en la literatura de visión por computadora dedicada a proteger las imágenes con derechos de autor de ser entrenadas en modelos de IA, o ser utilizada en procesos de IA de imágenes directas> Imagen. Los sistemas de este tipo generalmente están dirigidos a modelos de difusión latente (LDM), como la difusión estable y el flujo, que utilizan procedimientos basados en ruido para codificar y decodificar imágenes.
Al insertar el ruido adversario en imágenes de aspecto normal, puede ser posible hacer que los detectores de imágenes adivinen el contenido de la imagen incorrectamente, y los sistemas de generación de imágenes explotan los datos con derechos de autor:
Desde el documento del MIT ‘elevando el costo de la edición de imágenes maliciosas con IA’, ejemplos de una imagen de origen ‘inmunizada’ contra la manipulación (fila inferior). Fuente: https://arxiv.org/pdf/2302.06588
Dado que la reacción violenta de los artistas contra el uso liberal de la difusión estable de las imágenes con canto web (incluidas las imágenes con derechos de autor) en 2023, la escena de la investigación ha producido múltiples variaciones sobre el mismo tema: la idea de que las imágenes pueden ser “envenenadas” invisiblemente contra la capacitación en sistemas de IA o absorbidas en las tuberías generativas de IA, sin afectar adversamente la calidad de la imagen, para la visión promedio.
En todos los casos, existe una correlación directa entre la intensidad de la perturbación impuesta, la medida en que la imagen se protege posteriormente y la medida en que la imagen no se ve tan bien como debería:
Aunque la calidad de la investigación PDF no ilustra por completo el problema, mayores cantidades de perturbación adversaria sacrifican la calidad de la seguridad. Aquí vemos la gama de disturbios de calidad en el proyecto 2020 ‘Fawkes’ dirigido por la Universidad de Chicago. Fuente: https://arxiv.org/pdf/2002.08327
De particular interés para los artistas que buscan proteger sus estilos contra la apropiación no autorizada es la capacidad de tales sistemas no solo para ofuscar la identidad y otra información, sino de “convencer” un proceso de entrenamiento de IA de que está viendo algo más que realmente ver, para que las conexiones no se formen entre los dominios semánticos y visuales para los datos de entrenamiento “protegidos” (IE, como una rápida indicadora como la rápida como la rápida como lo indicado como lo indicado como un aviso como indicado como un aviso como indicado como un aviso como indicado como un aviso como indicado como un aviso como indicado como ind ‘Al estilo de Paul Klee’).
La niebla y el glaseado son dos métodos de inyección populares capaces de prevenir, o al menos intentos de cojear severamente para usar estilos con derechos de autor en flujos de trabajo de IA y rutinas de entrenamiento. Fuente: https://arxiv.org/pdf/2506.04394
Meta propia
Ahora, una nueva investigación de los Estados Unidos ha encontrado no solo que las perturbaciones pueden no proteger una imagen, sino que agregar perturbación en realidad puede mejorar La explotabilidad de la imagen en todos los procesos de IA que la perturbación está destinado a inmunizar.
El documento dice:
‘En nuestros experimentos con varios métodos de protección de imágenes basados en perturbaciones en múltiples dominios (imágenes de escenas naturales y obras de arte) y tareas de edición (generación de imagen a imagen y edición de estilo), descubrimos que dicha protección no logra este objetivo por completo.
‘En la mayoría de los escenarios, la edición basada en la difusión de imágenes protegidas genera una imagen de salida deseable que se adhiere precisamente al mensaje de guía.
‘Nuestros hallazgos sugieren que agregar ruido a las imágenes puede aumentar paradójicamente su asociación con las indicaciones de texto dadas durante el proceso de generación, lo que lleva a consecuencias no deseadas como mejor ediciones resultantes.
“Por lo tanto, argumentamos que los métodos basados en perturbaciones pueden no proporcionar una solución suficiente para una protección de imagen robusta contra la edición basada en la difusión”.
En las pruebas, las imágenes protegidas se expusieron a dos escenarios familiares de edición de IA: generación directa de imagen a imagen y transferencia de estilo. Estos procesos reflejan las formas comunes en que los modelos de IA podrían explotar el contenido protegido, ya sea alterando directamente una imagen o tomando prestados sus rasgos estilísticos para su uso en otros lugares.
Las imágenes protegidas, extraídas de fuentes estándar de fotografía y obras de arte, se ejecutaron a través de estas tuberías para ver si las perturbaciones adicionales podrían bloquear o degradar las ediciones.
En cambio, la presencia de protección a menudo parecía agudizar la alineación del modelo con las indicaciones, produciendo salidas limpias y precisas donde se esperaba alguna falla.
Los autores aconsejan, en efecto, que este método de protección muy popular puede estar proporcionando una falsa sensación de seguridad, y que cualquier enfoque de inmunización basado en perturbaciones debe probarse a fondo contra los métodos de los autores.
Método
Los autores realizaron experimentos utilizando tres métodos de protección que aplican perturbaciones adversas cuidadosamente diseñadas: PhotoGuard; Neblina; y esmalte.
Glaze, uno de los marcos probados por los autores, que ilustran ejemplos de protección de esmalte para tres artistas. Las dos primeras columnas muestran las obras de arte originales; La tercera columna muestra resultados de imitación sin protección; Las cuartas versiones transferidas por estilo utilizadas para la optimización de la capa, junto con el nombre de estilo objetivo. Las columnas quinta y sexta muestran resultados de imitación con encubrimiento aplicado en los niveles de perturbación P = 0.05 y P = 0.1. Todos los resultados utilizan modelos de difusión estables. https://arxiv.org/pdf/2302.04222
Photoguard se aplicó a imágenes de escenas naturales, mientras que Mist y Glaze se usaron en obras de arte (es decir, dominios ‘de estilo artísticamente’).
Las pruebas cubrieron imágenes naturales y artísticas para reflejar posibles usos del mundo real. La efectividad de cada método se evaluó verificando si un modelo de IA aún podría producir ediciones realistas y relevantes cuando se trabaja en imágenes protegidas; Si las imágenes resultantes parecían convincentes y coincidían con las indicaciones, se consideró que la protección había fallado.
La difusión estable V1.5 se utilizó como generador de imágenes previamente capacitado para las tareas de edición de los investigadores. Se seleccionaron cinco semillas para garantizar la reproducibilidad: 9222, 999, 123, 66 y 42. Todas las demás configuraciones de generación, como escala de orientación, resistencia y pasos totales, siguieron los valores predeterminados utilizados en los experimentos de fotoguard.
Photoguard se probó en imágenes de escena natural utilizando el conjunto de datos Flickr8k, que contiene más de 8,000 imágenes emparejadas con hasta cinco subtítulos cada una.
Pensamientos opuestos
Se crearon dos conjuntos de subtítulos modificados a partir de la primera leyenda de cada imagen con la ayuda de Claude Sonnet 3.5. Un conjunto contenía indicadores que eran contextualmente cercano a los subtítulos originales; El otro conjunto contenía indicadores que eran contextualmente distante.
Por ejemplo, de la leyenda original ‘Una niña con un vestido rosa que entra en una cabaña de madera’un mensaje cercano sería ‘Un niño con una camisa azul que entra en una casa de ladrillos’. Por el contrario, un distante aviso sería ‘Dos gatos descansando en un sofá’.
Se construyeron indicaciones cercanas reemplazando sustantivos y adjetivos con términos semánticamente similares; Las indicaciones lejanas se generaron al instruir al modelo para crear subtítulos que eran contextualmente muy diferentes.
Todos los subtítulos generados se verificaron manualmente en busca de calidad y relevancia semántica. El codificador de oraciones universal de Google se utilizó para calcular puntajes de similitud semántica entre los subtítulos originales y modificados:
A partir del material complementario, las distribuciones de similitud semántica para los subtítulos modificados utilizados en las pruebas FlickR8K. El gráfico de la izquierda muestra los puntajes de similitud para subtítulos estrechamente modificados, con un promedio de alrededor de 0.6. El gráfico de la derecha muestra los subtítulos ampliamente modificados, con un promedio de alrededor de 0.1, lo que refleja una mayor distancia semántica de los subtítulos originales. Los valores se calcularon utilizando el codificador de oraciones universal de Google. Fuente: https://sigport.org/sites/default/files/docs/incompleteprotection_sm_0.pdf
Cada imagen, junto con su versión protegida, se editó utilizando las indicaciones cerradas y lejanas. El evaluador de calidad espacial de imagen ciego/sin referencias (Brisque) se utilizó para evaluar la calidad de la imagen:
Resultados de la generación de imagen a imagen en fotografías naturales protegidas por PhotoGuard. A pesar de la presencia de perturbaciones, la difusión estable V1.5 siguió con éxito cambios semánticos pequeños y grandes en las indicaciones de edición, produciendo salidas realistas que coincidían con las nuevas instrucciones.
Las imágenes generadas obtuvieron 17.88 en Brisque, con 17.82 para sugerencias cercanas y 17.94 para indicaciones lejanas, mientras que las imágenes originales obtuvieron 22.27. Esto muestra que las imágenes editadas permanecieron cercanas en calidad a los originales.
Métrica
Para juzgar qué tan bien interfirieron las protecciones con la edición de AI, los investigadores midieron cuán de cerca las imágenes finales coincidieron con las instrucciones que se les dieron, utilizando sistemas de puntuación que compararon el contenido de la imagen con el mensaje de texto, para ver qué tan bien se alinean.
Con este fin, la métrica Clip-S utiliza un modelo que puede comprender tanto las imágenes como el texto para verificar cuán similares son, mientras que PAC-S ++ agrega muestras adicionales creadas por AI para alinear su comparación más estrechamente con una estimación humana.
Estas puntuaciones de alineación de texto de imagen (ITA) denotan cuán exactamente la IA siguió las instrucciones al modificar una imagen protegida: si una imagen protegida aún condujo a una salida altamente alineada, significa que la protección se consideró que tenía fallido Para bloquear la edición.
Efecto de la protección en el conjunto de datos FlickR8K en cinco semillas, utilizando indicaciones cercanas y distantes. La alineación de texto de imagen se midió utilizando puntajes CLIP-S y PAC-S ++.
Los investigadores compararon qué tan bien la IA siguió las indicaciones al editar imágenes protegidas en comparación con las sin protección. Primero observaron la diferencia entre los dos, llamados el Cambio real. Entonces la diferencia se escaló para crear un Cambio porcentualhaciendo que sea más fácil comparar los resultados en muchas pruebas.
Este proceso reveló si las protecciones hicieron más difícil o más fácil para la IA que coincida con las indicaciones. Las pruebas se repitieron cinco veces usando diferentes semillas aleatorias, cubriendo cambios pequeños y grandes en los subtítulos originales.
Ataque de arte
Para las pruebas en fotografías naturales, se utilizó el conjunto de datos FlickR1024, que contiene más de mil imágenes de alta calidad. Cada imagen fue editada con indicaciones que siguieron al patrón: ‘Cambia el estilo a (v)’dónde (V) representó uno de los siete estilos de arte famosos: el cubismo; Postimpresionismo; Impresionismo; Surrealismo; Barroco; Fauvismo; y Renacimiento.
El proceso implicó la aplicación de fotoguard a las imágenes originales, generando versiones protegidas y luego ejecutar imágenes protegidas y desprotegidas a través del mismo conjunto de ediciones de transferencia de estilo:
Versiones originales y protegidas de una imagen de escena natural, cada una editada para aplicar estilos de cubismo, surrealismo y fauvismo.
Para probar los métodos de protección en obras de arte, la transferencia de estilo se realizó en imágenes del conjunto de datos Wikiart, que cura una amplia gama de estilos artísticos. Las indicaciones de edición siguieron el mismo formato que antes, instruyendo a la IA que cambie el estilo a un estilo no relacionado al azar extraído de las etiquetas Wikiart.
Los métodos de protección de esmalte y niebla se aplicaron a las imágenes antes de las ediciones, lo que permite a los investigadores observar qué tan bien podría bloquear o distorsionar los resultados de la transferencia de estilo:
Ejemplos de cómo los métodos de protección afectan la transferencia de estilo en las obras de arte. La imagen barroca original se muestra junto con versiones protegidas por niebla y glaseado. Después de aplicar la transferencia de estilo de cubismo, se pueden ver las diferencias en cómo cada protección altera la salida final.
Los investigadores también probaron las comparaciones cuantitativamente:
Cambios en los puntajes de alineación de texto de imagen después de ediciones de transferencia de estilo.
De estos resultados, los autores comentan:
‘Los resultados destacan una limitación significativa de las perturbaciones adversas para la protección. En lugar de impedir la alineación, las perturbaciones adversas a menudo mejoran la capacidad de respuesta del modelo generativo a las indicaciones, lo que permite inadvertidamente los explotadores producir resultados que se alinean más estrechamente con sus objetivos. Dicha protección no es perjudicial para el proceso de edición de imágenes y es posible que no pueda evitar que los agentes maliciosos copien material no autorizado.
“Las consecuencias no deseadas del uso de perturbaciones adversas revelan vulnerabilidades en los métodos existentes y subrayan la necesidad urgente de técnicas de protección más efectivas”.
Los autores explican que los resultados inesperados se pueden rastrear a cómo funcionan los modelos de difusión: LDMS edite imágenes al convertirlas primero en una versión comprimida llamada latente; Luego se agrega ruido a este latente a través de muchos pasos, hasta que los datos se vuelven casi aleatorios.
El modelo invierte este proceso durante la generación, eliminando el ruido paso a paso. En cada etapa de esta inversión, el indicador de texto ayuda a guiar cómo se debe limpiar el ruido, configurando gradualmente la imagen para que coincida con el aviso:
Comparación entre generaciones de una imagen sin protección y una imagen protegida con fotoguard, con estados latentes intermedios convertidos nuevamente en imágenes para la visualización.
Los métodos de protección agregan pequeñas cantidades de ruido adicional a la imagen original antes de que ingrese a este proceso. Si bien estas perturbaciones son menores al comienzo, se acumulan a medida que el modelo aplica sus propias capas de ruido.
Esta acumulación deja más partes de la imagen ‘incierta’ cuando el modelo comienza a eliminar el ruido. Con una mayor incertidumbre, el modelo se inclina más en la solicitud de texto para completar los detalles faltantes, dando el aviso aún más influencia de la que normalmente hubiera.
En efecto, las protecciones facilitan que la IA remodele la imagen para que coincida con el aviso, en lugar de más difícil.
Finalmente, los autores realizaron una prueba que sustituyó las perturbaciones elaboradas de la Aumento del costo de la edición de imágenes de IA maliciosa Papel para el ruido gaussiano puro.
Los resultados siguieron el mismo patrón observado anteriormente: en todas las pruebas, los valores de cambio porcentuales se mantuvieron positivos. Incluso este ruido aleatorio y no estructurado condujo a una alineación más fuerte entre las imágenes generadas y las indicaciones.
Efecto de la protección simulada utilizando el ruido gaussiano en el conjunto de datos Flickr8k.
Esto admitió la explicación subyacente de que cualquier ruido adicional, independientemente de su diseño, crea una mayor incertidumbre para el modelo durante la generación, lo que permite que la solicitud de texto ejerza aún más control sobre la imagen final.
Conclusión
La escena de la investigación ha estado impulsando la perturbación adversaria en el tema de los derechos de autor de LDM durante casi el tiempo que los LDMS hayan existido; Pero no han surgido soluciones resilientes del extraordinario número de artículos publicados en esta táctica.
O las perturbaciones impuestas reducen excesivamente la calidad de la imagen, o los patrones demuestran no ser resistentes a la manipulación y los procesos transformadores.
Sin embargo, es un sueño duro abandonar, ya que la alternativa parece ser marcos de monitorización de terceros y procedencia, como el esquema C2PA dirigido por Adobe, que busca mantener una cadena de custodia para las imágenes del sensor de la cámara, pero que no tiene una conexión innata con el contenido dependiente.
En cualquier caso, si la perturbación adversaria realmente empeora el problema, ya que el nuevo documento indica que podría ser cierto en muchos casos, uno se pregunta si la búsqueda de protección de derechos de autor a través de tales medios cae bajo ‘alquimia’.
Publicado por primera vez el lunes 9 de junio de 2025