Las herramientas de IA conversacionales como ChatGPT y Google Gemini ahora se están utilizando para crear defagos que no intercambian caras, pero de manera más sutil pueden reescribir toda la historia dentro de una imagen. Al cambiar de gestos, accesorios y fondos, estas ediciones engañan tanto a los detectores de IA como a los humanos, elevando las apuestas para detectar lo que es real en línea.
En el clima actual, particularmente a raíz de una legislación significativa, como la Ley de Take It Down, muchos de nosotros asociamos los profundos profundos y la síntesis de identidad impulsada por la IA con la pornografía no consensuada y la manipulación política, en general, en general, bruto distorsiones de la verdad.
Esto nos aclimatiza a esperar que las imágenes manipuladas con AI siempre buscen contenido de alto riesgo, donde la calidad de la representación y la manipulación del contexto pueden lograr un golpe de credibilidad, al menos a corto plazo.
Históricamente, sin embargo, las alteraciones más sutiles a menudo han tenido un efecto más siniestro y duradero, como el engaño fotográfico de última generación que permitió a Stalin eliminar a los que se habían quedado en desgracia del disco fotográfico, como satirizado en la novela de George Orwell Diecinueve ochenta y cuatrodonde el protagonista Winston Smith pasa sus días reescribiendo la historia y con fotos creadas, destruidas y “enmendadas”.
En el siguiente ejemplo, el problema con el segundo La imagen es que “no sabemos lo que no sabemos”: que el ex jefe de la policía secreta de Stalin, Nikolai Yezhov, solía ocupar el espacio donde ahora solo hay una barrera de seguridad:
Ahora lo ves, ahora es … vapor. La manipulación fotográfica de la era de Stalin elimina a un miembro del partido deshonrado de la historia. Fuente: Dominio público, a través de https://www.rferl.org/a/soviet-irbrushing-the-censors-who-scratched-outhistory/29361426.html
Las corrientes de este tipo, a menudo repetidas, persisten de muchas maneras; No solo culturalmente, sino en la visión por computadora en sí, lo que deriva las tendencias de temas y motivos estadísticamente dominantes en los conjuntos de datos de capacitación. Para dar un ejemplo, el hecho de que los teléfonos inteligentes hayan bajado la barrera de entrada, y macizamente Bajó el costo de la fotografía, significa que su iconografía se ha asociado ineludiblemente con muchos conceptos abstractos, incluso cuando esto no es apropiado.
Si el profundo convencional puede percibirse como un acto de “asalto”, las alteraciones menores perniciosas y persistentes en los medios audiovisuales son más parecidos a la “iluminación de gas”. Además, la capacidad de este tipo de profundo que pasa desapercibido hace que sea difícil identificarse a través de sistemas de detecciones profundas de última generación (que buscan cambios brutos). Este enfoque es más parecido al agua que se desgasta en un período sostenido, que una roca dirigida a una cabeza.
Múltiple
Investigadores de Australia han hecho un intento de abordar la falta de atención a la “sutiles” profunda en la literatura, al curar un nuevo conjunto de datos sustancial de manipulaciones de imágenes centradas en la persona que alteran el contexto, la emoción y la narrativa sin cambiar la identidad central del sujeto:
Muestrado de la nueva colección, pares reales/falsos, con algunas alteraciones más sutiles que otras. Tenga en cuenta, por ejemplo, la pérdida de autoridad para la mujer asiática, baja derecha, ya que la IA elimina el estetoscopio de su médico. Al mismo tiempo, la sustitución de la almohadilla del médico por el portapapeles no tiene un ángulo semántico obvio. Fuente: https://huggingface.co/datasets/parulgupta/multifakeverse_preview
Noble Múltiplela colección consta de 845,826 imágenes generadas a través de modelos de lenguaje de visión (VLMS), a las que se puede acceder en línea y descargar, con permiso.
Los autores afirman:
‘Este enfoque impulsado por VLM permite alteraciones semánticas y conscientes del contexto, como acciones de modificación, escenas e interacciones de objeto humano en lugar de swaps de identidad sintéticos o de bajo nivel y ediciones específicas de la región que son comunes en los conjuntos de datos existentes.
“Nuestros experimentos revelan que los modelos actuales de detección de defake de última generación y los observadores humanos luchan por detectar estas manipulaciones sutiles pero significativas”.
Los investigadores probaron tanto a los humanos como a los sistemas de detección de Deepfake en su nuevo conjunto de datos para ver qué tan bien podrían identificarse estas manipulaciones sutiles. Los participantes humanos lucharon, clasificando correctamente las imágenes como reales o falsas solo aproximadamente el 62% del tiempo, y tuvieron una dificultad aún mayor para identificar qué partes de la imagen habían sido alteradas.
Los detectores existentes de Deepfake, entrenados principalmente en conjuntos de datos de intercambio de caras más obvios, también se desempeñaron mal, a menudo no se registraron que cualquier manipulación había ocurrido. Incluso después de ajustar en multifakeverse, las tasas de detección se mantuvieron bajas, exponiendo cómo los sistemas de mal estado manejan estas ediciones sutiles y narrativas.
El nuevo artículo se titula Multiverso a través de DeepFakes: el conjunto de datos multifakeverse de manipulaciones visuales y conceptuales centradas en la personay proviene de cinco investigadores de la Universidad de Monash en Melbourne y la Universidad Curtin en Perth. El código y los datos relacionados se han publicado en GitHub, además del alojamiento de la cara abrazada mencionada anteriormente.
Método
El conjunto de datos MultiFakeverse se construyó a partir de cuatro conjuntos de imágenes del mundo real con personas en diversas situaciones: emótico; PISC, PIPA y PIC 2.0. Comenzando con 86,952 imágenes originales, los investigadores produjeron 758,041 versiones manipuladas.
Los marcos Gemini-2.0-Flash y ChatGPT-4O se usaron para proponer seis ediciones mínimas para cada imagen: ediciones diseñadas para alterar sutilmente cómo la persona más prominente en la imagen sería percibida por un espectador.
Los modelos recibieron instrucciones de generar modificaciones que harían aparecer el sujeto ingenuo, orgulloso, arrepentido, inexpertoo despreocupadoo para ajustar algún elemento fáctico dentro de la escena. Junto con cada edición, los modelos también produjeron un expresión de referencia Para identificar claramente el objetivo de la modificación, garantizar que el proceso de edición posterior pueda aplicar cambios a la persona u objeto correcto dentro de cada imagen.
Los autores aclaran:
‘Tenga en cuenta que expresión de referencia es un dominio ampliamente explorado en la comunidad, que significa una frase que puede desambiguar el objetivo en una imagen, por ejemplo, una imagen que tiene dos hombres sentados en un escritorio, uno que habla por teléfono y el otro mirando a través de documentos, una expresión de referencia adecuada de la tarde sería el hombre a la izquierda sosteniendo un pedazo de papel. ‘
Una vez que se definieron las ediciones, la manipulación de la imagen real se llevó a cabo al provocar modelos en idioma de visión para aplicar los cambios especificados mientras dejaba intacto el resto de la escena. Los investigadores probaron tres sistemas para esta tarea: GPT-Image-1; Gemini-2.0-Flash-Image-Generation; y Icedit.
Después de generar veintidós mil imágenes de muestra, Gemini-2.0-Flash surgió como el método más consistente, produciendo ediciones que se mezclan naturalmente en la escena sin introducir artefactos visibles; IceDit a menudo produjo falsificaciones más obvias, con fallas notables en las regiones alteradas; y GPT-Image-1 ocasionalmente afectó partes no intencionadas de la imagen, en parte debido a su conformidad con relaciones de aspecto de salida fijas.
Análisis de imágenes
Cada imagen manipulada se comparó con su original para determinar cuánto de la imagen había sido alterada. Se calcularon las diferencias a nivel de píxel entre las dos versiones, con un pequeño ruido aleatorio filtrado para centrarse en ediciones significativas. En algunas imágenes, solo se afectaron las áreas pequeñas; en otros, hasta ochenta por ciento de la escena fue modificado.
Para evaluar cuánto cambió el significado de cada imagen a la luz de estas alteraciones, se generaron subtítulos para las imágenes originales y manipuladas utilizando el modelo de lenguaje de visión ShareGPT-4V.
Estos subtítulos se convirtieron en incrustaciones usando clip largo, lo que permite una comparación de cuán lejos había divergido el contenido entre las versiones. Los cambios semánticos más fuertes se observaron en los casos en que los objetos cercanos o directamente que involucran a la persona habían sido alterados, ya que estos pequeños ajustes podrían cambiar significativamente cómo se interpretó la imagen.
Gemini-2.0-flash se usó para clasificar el tipo de manipulación aplicada a cada imagen, en función de dónde y cómo se hicieron las ediciones. Las manipulaciones se agruparon en tres categorías: a nivel de persona Las ediciones involucraron cambios en la expresión facial del sujeto, pose, mirada, ropa u otros rasgos personales; a nivel de objeto Las ediciones afectadas de los elementos conectados a la persona, como los objetos con los que sostenían o interactuaban en primer plano; y nivel de escena Las ediciones involucraron elementos de fondo o aspectos más amplios del entorno que no involucraron directamente a la persona.
La tubería de generación de conjuntos de datos multifakeverse comienza con imágenes reales, donde los modelos en idioma de visión proponen ediciones narrativas dirigidas a personas, objetos o escenas. Estas instrucciones se aplican luego mediante modelos de edición de imágenes. El panel correcto muestra la proporción de manipulaciones a nivel de persona, a nivel de objeto y a nivel de escena a través del conjunto de datos. Fuente: https://arxiv.org/pdf/2506.00868
Dado que las imágenes individuales podrían contener múltiples tipos de ediciones a la vez, la distribución de estas categorías se asignó a través del conjunto de datos. Aproximadamente un tercio de las ediciones se dirigió solo a la persona, aproximadamente un quinto afectó solo la escena, y alrededor de un sexto se limitó a los objetos.
Evaluar el impacto perceptivo
Se usó Gemini-2.0-Flash para evaluar cómo las manipulaciones podrían alterar la percepción de un espectador en seis áreas: emoción, identidad personal, fuerza dinámica, narrativa de escena, intención de manipulacióny preocupaciones éticas.
Para emociónlas ediciones a menudo se describieron con términos como alegre, atractivoo accesiblesugiriendo cambios en cómo los sujetos estaban enmarcados emocionalmente. En términos narrativos, palabras como profesional o diferente Cambios indicados en la historia o configuración implícita:
Se solicitó a Gemini-2.0-Flash a evaluar cómo cada manipulación afectó seis aspectos de la percepción del espectador. Izquierda: Ejemplo de estructura rápida que guía la evaluación del modelo. Derecho: nubes de palabras que resumen los cambios en la emoción, la identidad, la narrativa de la escena, la intención, la dinámica de poder y las preocupaciones éticas en todo el conjunto de datos.
Las descripciones de los cambios de identidad incluyeron términos como más joven, Juguetóny vulnerablemostrando cómo los cambios menores podrían influir en cómo se percibían los individuos. La intención detrás de muchas ediciones fue etiquetada como persuasivo, engañosoo estético. Si bien se consideró que la mayoría de las ediciones planteaban solo preocupaciones éticas leves, se consideraba que una fracción pequeña llevaba implicaciones éticas moderadas o graves.
Ejemplos de multifakeverse que muestran cómo las ediciones pequeñas cambian de percepción del espectador. Las cajas amarillas resaltan las regiones alteradas, con un análisis acompañante de cambios en la emoción, la identidad, la narrativa y las preocupaciones éticas.
Métrica
La calidad visual de la colección multifakeverse se evaluó utilizando tres métricas estándar: relación señal / ruido máxima (PSNR); Índice de similitud estructural (SSIM); y la distancia de inicio de Fréchet (FID):
Puntajes de calidad de imagen para multifakeverse medidos por PSNR, SSIM y FID.
La puntuación SSIM de 0.5774 refleja un grado moderado de similitud, consistente con el objetivo de preservar la mayor parte de la imagen mientras se aplica ediciones específicas; La puntuación FID de 3.30 sugiere que las imágenes generadas mantienen de alta calidad y diversidad; y un valor de PSNR de 66.30 decibelios indica que las imágenes conservan una buena fidelidad visual después de la manipulación.
Estudio de usuarios
Se realizó un estudio de usuario para ver qué tan bien las personas podían detectar las falsificaciones sutiles en MultiFakeverse. Dieciocho participantes se les mostró cincuenta imágenes, divididas uniformemente entre ejemplos reales y manipulados que cubren una variedad de tipos de edición. Se le pidió a cada persona que clasifique si la imagen era real o falsa y, si es falsa, para identificar qué tipo de manipulación se había aplicado.
La precisión general para decidir real versus falso fue del 61.67 por ciento, lo que significa que los participantes clasificaron las imágenes erróneas más de un tercio del tiempo.
Los autores afirman:
‘Analizando las predicciones humanas de los niveles de manipulación para las imágenes falsas, la intersección promedio sobre la unión entre los niveles de manipulación predichos y reales fue de 24.96%.
“Esto muestra que no es trivial que los observadores humanos identifiquen las regiones de las manipulaciones en nuestro conjunto de datos”.
La construcción del conjunto de datos multifakeverse requirió recursos computacionales extensos: para generar instrucciones de edición, se hicieron más de 845,000 llamadas API a los modelos Gemini y GPT, con estas tareas de impulso que cuestan alrededor de $ 1000; producir las imágenes basadas en Géminis cuestan aproximadamente $ 2,867; y generar imágenes que usan GPT-Image-1 cuestan aproximadamente $ 200. Las imágenes ICEDIT se crearon localmente en una GPU NVIDIA A6000, completando la tarea en aproximadamente veinticuatro horas.
Pruebas
Antes de las pruebas, el conjunto de datos se dividió en capacitación, validación y conjuntos de pruebas seleccionando primero el 70% de las imágenes reales para la capacitación; 10 por ciento para la validación; y 20 por ciento para las pruebas. Las imágenes manipuladas generadas a partir de cada imagen real se asignaron al mismo conjunto que su original correspondiente.
Otros ejemplos de contenido real (izquierda) y alterado (derecha) del conjunto de datos.
El rendimiento en la detección de falsificaciones se midió utilizando la precisión a nivel de imagen (si el sistema clasifica correctamente la imagen completa como real o falsa) y los puntajes F1. Para localizar regiones manipuladas, el área de evaluación utilizada bajo la curva (AUC), las puntuaciones F1 y la intersección sobre la Unión (IOU).
El conjunto de datos MultiFakeverse se utilizó con los principales sistemas de detección de Deepfake en el conjunto de pruebas completas, siendo los marcos rivales CNNSPOT; AntifakePrompt; Trufor; y el Sida basado en la visión. Cada modelo se evaluó primero en modo de disparo cero, utilizando sus pesos de petróleo originales sin un ajuste adicional.
Dos modelos, CNNSpot y Sida, fueron ajustados en datos de entrenamiento multifaíver para evaluar si el reentrenamiento mejoró el rendimiento.
Resultados de detección de defake en profundidad en condiciones de múltiples disparos y ajuste fino. Los números entre paréntesis muestran cambios después del ajuste.
De estos resultados, los autores afirman:
‘(Los) modelos entrenados en falsificaciones de inpateación anterior que luchan para identificar nuestras falsificaciones basadas en la edición de VLM, particularmente, CNNSpot tiende a clasificar casi todas las imágenes como reales. AntifakePrompt tiene el mejor rendimiento de disparo cero con una precisión promedio de clase promedio de 66.87% y un puntaje F1 de 55.55%.
‘Después de la sintonización en nuestro conjunto de trenes, observamos una mejora del rendimiento tanto en CNNSPOT como en SIDA-13B, con CNNSPOT superando a SIDA-13B en términos de precisión promedio de clase (1.92%), así como F1-Score (por 1.97%)’ ‘.
SIDA-13B se evaluó en MultiFakeVerse para medir cuán precisamente podría localizar las regiones manipuladas dentro de cada imagen. El modelo se probó tanto en modo de disparo cero como después del ajuste fino en el conjunto de datos.
En su estado original, alcanzó un puntaje de intersección a la unidad de 13.10, una puntuación F1 de 19.92 y un AUC de 14.06, que refleja un rendimiento de localización débil.
Después de ajustar, los puntajes mejoraron a 24.74 para IOU, 39.40 para F1 y 37.53 para AUC. Sin embargo, incluso con el entrenamiento adicional, el modelo todavía tenía problemas para encontrar exactamente dónde se habían realizado las ediciones, destacando lo difícil que puede ser detectar este tipo de pequeños cambios específicos.
Conclusión
El nuevo estudio expone un punto ciego tanto en la percepción humana como en la máquina: si bien gran parte del debate público en torno a Deepfakes se ha centrado en los intercambios de identidad de aceleración de titulares, estas ‘ediciones narrativas’ más tranquilas son más difíciles de detectar y potencialmente más corrosivas a largo plazo.
A medida que los sistemas como ChatGPT y Gemini asuman un papel más activo en la generación de este tipo de contenido, y a medida que nosotros mismos participamos cada vez más en la alteración de la realidad de nuestras propias fotos, los modelos de detección que dependen de detectar manipulaciones crudas pueden ofrecer una defensa inadecuada.
Lo que MultiFakeverse demuestra no es que la detección ha fallado, sino que al menos parte del problema puede estar cambiando a una forma más difícil y de movimiento más lento: una donde las pequeñas mentiras visuales se acumulan desapercibidas.
Publicado por primera vez el jueves 5 de junio de 2025