Un método de datos forenses para una nueva generación de defectos profundos

-

spot_img

Aunque el profundo de los particulares se ha convertido en una creciente preocupación pública y se está prohibiendo cada vez más en varias regiones, lo que en realidad es muy desafiante que un modelo creado por el usuario, como uno que permite la pornografía de venganza, se capacitó específicamente en las imágenes de una persona en particular, sigue siendo extremadamente desafiante.

Para poner el problema en contexto: un elemento clave de un ataque de defake profundo es afirmar falsamente que una imagen o video representa a una persona específica. Simplemente declarar que alguien en un video es Identity #A, en lugar de simplemente un parecido, es suficiente para crear daño, y no es necesaria una IA en este escenario.

Sin embargo, si un atacante genera imágenes o videos de IA utilizando modelos capacitados en los datos de la persona real, las redes sociales y los sistemas de reconocimiento facial del motor de búsqueda vinculará automáticamente el contenido falso a la víctima, sin requerir nombres en publicaciones o metadatos. Las imágenes generadas por IA solo aseguran la asociación.

Cuanto más distinta aparece la persona, más inevitable se vuelve esto, hasta que el contenido fabricado aparece en las búsquedas de imágenes y finalmente llega a la víctima.

Cara a cara

El medio más común para difundir modelos centrados en la identidad es actualmente a través de la adaptación de bajo rango (LORA), en el que el usuario entrena un pequeño número de imágenes durante unas pocas horas contra los pesos de un modelo de base mucho más grande, como la difusión estable (para estática. Imágenes, principalmente) o Video de Hunyuan, para videos profundos.

El mas común objetivos de Loras, incluida la nueva raza de Loras basadas en video, son celebridades femeninas, cuya fama los expone a este tipo de tratamiento con menos críticas públicas que en el caso de las víctimas ‘desconocidas’, debido a la suposición de que tales obras derivadas están cubiertas bajo ‘uso justo’ (al menos en los Estados Unidos y Europa).

Las celebridades femeninas dominan los listados de Lora y Dreambooth en el Portal Civit.ai. La Lora más popular actualmente tiene más de 66,000 descargas, lo cual es considerable, dado que este uso de IA sigue siendo visto como una actividad de ‘martillo’.

No existe tal foro público para las víctimas de profundidad que no son de celebridades, que solo surgen en los medios de comunicación cuando surgen casos de enjuiciamiento, o las víctimas hablan en puntos de venta populares.

Sin embargo, en ambos escenarios, los modelos utilizados para fingir las identidades objetivo han “destilado” sus datos de entrenamiento tan completamente en el espacio latente del modelo que es difícil identificar las imágenes de origen que se usaron.

Si eran Es posible hacerlo dentro de un margen de error aceptable, esto permitiría el enjuiciamiento de aquellos que comparten Loras, ya que no solo demuestra la intención de hacer una identidad particular (es decir, la de una persona “desconocida” específica, incluso si el malhechor Nunca los nombra durante el proceso de difamación), pero también expone el cargador a cargos de infracción de derechos de autor, cuando corresponda.

Este último sería útil en jurisdicciones donde la regulación legal de las tecnologías de profundidad carece o se queda atrás.

Sobreexpuesto

El objetivo de capacitar a un modelo de base, como el modelo base de múltiples gigabytes que un usuario podría descargar de abrazar la cara, es que el modelo debe volverse bien generalizado y dúctil. Esto implica la capacitación en un número adecuado de imágenes diversas, y con configuraciones apropiadas y capacitación final antes de que el modelo se ‘sobrefije’ a los datos.

Un modelo sobreinfundido ha visto los datos tantos veces (excesivos) veces durante el proceso de entrenamiento que tenderá a reproducir imágenes que son muy similares, exponiendo así la fuente de datos de entrenamiento.

La identidad ‘Ann Graham Lotz’ puede reproducirse casi perfectamente en el modelo de difusión estable V1.5. La reconstrucción es casi idéntica a los datos de entrenamiento (a la izquierda en la imagen de arriba). Fuente: https://arxiv.org/pdf/2301.13188

Sin embargo, sus creadores generalmente descartan los modelos sobrecargados en lugar de distribuirse, ya que en cualquier caso no son aptos para su propósito. Por lo tanto, esta es una ‘ganancia inesperada’ forense improbable. En cualquier caso, el principio se aplica más al costoso y de alto volumen de los modelos de base, donde múltiples versiones de la misma imagen que se han infiltrado en un gran conjunto de datos de origen pueden hacer que ciertas imágenes de entrenamiento sean fáciles de invocar (ver imagen y ejemplo arriba) .

Leer  China presenta el primer hospital de IA del mundo: 14 médicos virtuales listos para tratar miles de día

Las cosas son un poco diferentes en el caso de los modelos Lora y Dreambooth (aunque Dreambooth se ha quedado fuera de moda debido a sus grandes tamaños de archivo). Aquí, el usuario selecciona un número muy limitado de imágenes diversas de un tema, y ​​las utiliza para entrenar un Lora.

A la izquierda, la salida de un video Hunyuan Lora. A la derecha, los datos que hicieron posible la semejanza (imágenes utilizadas con el permiso de la persona representada).

Con frecuencia el Lora tendrá una palabra de gatillo entrenada, como (NameOfelebrity). Sin embargo, muy a menudo el sujeto capacitado específicamente aparecerá en la salida generada Incluso sin tales indicacionesporque incluso una Lora bien equilibrada (es decir, no esinfitida) está algo “fijada” en el material en el que fue entrenado y tenderá a incluirlo en cualquier salida.

Esta predisposición, combinada con los números de imagen limitados que son óptimos para un conjunto de datos LORA, exponen el modelo al análisis forense, como veremos.

Desenmascarando los datos

Estos asuntos se abordan en un nuevo artículo de Dinamarca, que ofrece una metodología para identificar imágenes de origen (o grupos de imágenes de origen) en un ataque de inferencia de membresía de caja negra (MIA). La técnica, al menos en parte, implica el uso de modelos capacitados a medida que están diseñados para ayudar a exponer los datos de origen generando sus propios ‘profundos’:

Ejemplos de imágenes ‘falsas’ generadas por el nuevo enfoque, en niveles cada vez mayores de guía sin clasificadores (CFG), hasta el punto de destrucción. Fuente: https://arxiv.org/pdf/2502.11619

Aunque el trabajo, titulado Ataques de inferencia de membresía para imágenes de la cara contra modelos de difusión latente ajustadoses una contribución muy interesante a la literatura en torno a este tema en particular, también es un artículo inaccesible y muy escritos que necesita una decodificación considerable. Por lo tanto, cubriremos al menos los principios básicos detrás del proyecto aquí, y una selección de los resultados obtenidos.

En efecto, si alguien ajusta un modelo de IA en su rostro, el método de los autores puede ayudarlo a buscar signos reveladores de memorización en las imágenes generadas por el modelo.

En primera instancia, un modelo de IA objetivo está ajustado en un conjunto de datos de imágenes faciales, lo que hace que sea más probable que reproduzca detalles de esas imágenes en sus salidas. Posteriormente, un modo de ataque clasificador está entrenado utilizando imágenes generadas por IA del modelo de destino como ‘positivos’ (presuntos miembros del conjunto de capacitación) y otras imágenes de un conjunto de datos diferente como ‘negativos’ (no miembros).

Al aprender las diferencias sutiles entre estos grupos, el modelo de ataque puede predecir si una imagen determinada era parte del conjunto de datos de ajuste fino original.

El ataque es más efectivo en los casos en que el modelo AI ha sido ajustado ampliamente, lo que significa que cuanto más se especialice un modelo, más fácil es detectar si se usaron ciertas imágenes. Esto generalmente se aplica a Loras diseñados para recrear celebridades o particulares.

Leer  ¿Puede Ai resolver la epidemia de soledad?

Los autores también encontraron que agregar marcas de agua visibles a las imágenes de entrenamiento facilita la detección, aunque las marcas de agua ocultas no ayudan tanto.

Impresionantemente, el enfoque se prueba en una configuración de caja negra, lo que significa que funciona sin acceso a los detalles internos del modelo, solo sus salidas.

El método que llegó es computacionalmente intenso, como admiten los autores; Sin embargo, el valor de este trabajo es indicar la dirección para una investigación adicional y para demostrar que los datos pueden extraerse de manera realista a una tolerancia aceptable; Por lo tanto, dada su naturaleza seminal, no es necesario que se ejecute en un teléfono inteligente en esta etapa.

Método/datos

En el estudio se utilizaron varios conjuntos de datos de la Universidad Técnica de Dinamarca (DTU, la institución anfitriona de los tres investigadores del documento), para ajustar el modelo objetivo y para capacitar y probar el modo de ataque.

Los conjuntos de datos utilizados se derivaron de la órbita DTU:

Dseendtu El conjunto de imágenes base.

Ddtu Imágenes raspadas de la órbita DTU.

Dseendtu Una partición de DDTU utilizada para ajustar el modelo objetivo.

Dunse cuando Una partición de DDTU que no se utilizó para ajustar ningún modelo de generación de imágenes y, en su lugar, se usó para probar o entrenar el modelo de ataque.

wmdseendtu Una partición de DDTU con marcas de agua visibles utilizadas para ajustar el modelo objetivo.

hwmdseendtu Una partición de DDTU con marcas de agua ocultas utilizadas para ajustar el modelo objetivo.

Dgentu Imágenes generadas por un modelo de difusión latente (LDM) que se ha ajustado en el conjunto de imágenes DSEENDTU.

Los conjuntos de datos utilizados para ajustar el modelo de destino consisten en pares de texto de imagen subtitulados por el modelo de subtítulos de Blip (tal vez no por coincidencia uno de los modelos sin censura más populares en la comunidad informal de IA).

Blip estaba configurado para preparar la frase ‘Un tiro en la cabeza de DTU de A’ a cada descripción.

Además, se emplearon varios conjuntos de datos de la Universidad de Aalborg (AAU) en las pruebas, todos derivados del Corpus AU VBN:

Daau Imágenes raspadas de AAU VBN.

Dseenaau Una partición de Daau utilizada para ajustar el modelo objetivo.

Dunseenaa Una partición de Daau que no se usa para ajustar ningún modelo de generación de imágenes, sino que se usa para probar o entrenar el modelo de ataque.

Destreza Imágenes generadas por un LDM fino en el conjunto de imágenes Dseenaa.

Equivalente a los conjuntos anteriores, la frase ‘Un tiro en la cabeza de AAU de A’ fue usado. Esto aseguró que todas las etiquetas en el conjunto de datos DTU siguieron el formato ‘Un tiro en la cabeza de DTU de un (…)’reforzando las características centrales del conjunto de datos durante el ajuste fino.

Pruebas

Se realizaron múltiples experimentos para evaluar qué tan bien se realizaron los ataques de inferencia de membresía contra el modelo objetivo. Cada prueba tenía como objetivo determinar si era posible llevar a cabo un ataque exitoso dentro del esquema que se muestra a continuación, donde el modelo de destino está ajustado en un conjunto de datos de imagen que se obtuvo sin autorización.

Esquema para el enfoque.

Con el modelo ajustado consultado para generar imágenes de salida, estas imágenes se usan como ejemplos positivos para entrenar el modelo de ataque, mientras que las imágenes no relacionadas adicionales se incluyen como ejemplos negativos.

Leer  ¿Los modelos de IA se están convirtiendo en productos básicos?

El modelo de ataque se entrena utilizando el aprendizaje supervisado y luego se prueba en nuevas imágenes para determinar si originalmente eran parte del conjunto de datos utilizado para ajustar el modelo objetivo. Para evaluar la precisión del ataque, el 15% de los datos de la prueba se reservan para la validación.

Debido a que el modelo de destino está ajustado en un conjunto de datos conocido, el estado de membresía real de cada imagen ya está establecido al crear los datos de capacitación para el modelo de ataque. Esta configuración controlada permite una evaluación clara de cuán efectivamente puede distinguir el modelo de ataque entre las imágenes que formaron parte del conjunto de datos de ajuste fino y las que no lo fueron.

Para estas pruebas, se usó la difusión estable V1.5. Aunque este modelo bastante antiguo cultiva mucho en la investigación debido a la necesidad de pruebas consistentes y el extenso corpus de trabajo previo que lo usa, este es un caso de uso apropiado; V1.5 siguió siendo popular para la creación de Lora en la comunidad de pasatiempos de difusión estable durante mucho tiempo, a pesar de múltiples lanzamientos de versión posterior, e incluso a pesar del advenimiento del flujo, porque el modelo no tiene censura.

El modelo de ataque de los investigadores se basó en Resnet-18, con los pesos previos al modelo retenido. La última capa de 1000 neuronas de ResNet-18 se sustituyó con una capa totalmente conectada con dos neuronas. La pérdida de entrenamiento fue la entropía cruzada categórica, y se utilizó el Optimizer Adam.

Para cada prueba, el modelo de ataque fue entrenado cinco veces usando diferentes semillas aleatorias para calcular los intervalos de confianza del 95% para las métricas clave. La clasificación de disparo cero con el modelo de clip se utilizó como línea de base.

(Tenga en cuenta que la tabla de resultados principales originales en el documento es breve e inusualmente difícil de entender. Por lo tanto, la he reformulado a continuación de una manera más fácil de usar. Haga clic en la imagen para verlo en una mejor resolución)

Resumen de los resultados de todas las pruebas. Haga clic en la imagen para ver una mayor resolución

El método de ataque de los investigadores demostró ser más efectivo cuando se dirige a modelos ajustados, particularmente aquellos entrenados en un conjunto específico de imágenes, como la cara de un individuo. Sin embargo, si bien el ataque puede determinar si se usó un conjunto de datos, lucha por identificar imágenes individuales dentro de ese conjunto de datos.

En términos prácticos, este último no es necesariamente un obstáculo para usar un enfoque como este forense; Si bien hay relativamente poco valor en establecer que un conjunto de datos famoso como ImageNet se usó en un modelo, un atacante con un individuo privado (no una celebridad) tenderá a tener mucha menos opción de datos de origen y necesitará explotar completamente los datos disponibles Grupos como álbumes de redes sociales y otras colecciones en línea. Estos crean efectivamente un ‘hash’ que puede ser descubierto por los métodos descritos.

El artículo señala que otra forma de mejorar la precisión es usar imágenes generadas por IA como “no miembros”, en lugar de depender únicamente de imágenes reales. Esto evita tasas de éxito artificialmente altas que de otro modo podrían engañar a los resultados.

Un factor adicional que influye significativamente en la detección de los autores es la marca de agua. Cuando las imágenes de entrenamiento contienen marcas de agua visibles, el ataque se vuelve altamente efectivo, mientras que las marcas de agua ocultas ofrecen poca o ninguna ventaja.

La figura más derecha muestra la marca de agua ‘oculta’ real utilizada en las pruebas.

Finalmente, el nivel de orientación en la generación de texto a imagen también juega un papel, con el equilibrio ideal que SE SEME SUS DATOS DE ENTRENAMIENTO, reforzando la efectividad del ataque.

Conclusión

Es una pena que este interesante documento haya sido escrito de una manera tan inaccesible, ya que debería ser de cierto interés para los defensores de la privacidad e investigadores casuales de IA por igual.

Aunque los ataques de inferencia de membresía pueden ser una herramienta forense interesante y fructífera, es más importante, tal vez, para este conjunto de investigaciones desarrollar principios amplios aplicables, para evitar que termine en el mismo juego de Whack-a-Mole. Ocurrió para la detección de Deepfake en general, cuando la liberación de un modelo más nuevo afecta negativamente la detección y sistemas forenses similares.

Dado que hay alguna evidencia de un principio rectores de nivel superior limpiado en esta nueva investigación, podemos esperar ver más trabajo en esta dirección.

Publicado por primera vez el viernes 21 de febrero de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares