Las preocupaciones sobre los riesgos planteados por las imágenes manipuladas se han aparecido regularmente en la investigación en los últimos años, particularmente a la luz de un nuevo aumento de marcos de edición de imágenes basados en AI capaces de enmendar las imágenes existentes, en lugar de crearlas directamente.
La mayoría de los sistemas de detección propuestos que abordan este tipo de contenido se dividen en uno de los dos campos: el primero es marca de agua – Un enfoque respaldo incorporado en el marco de veracidad de la imagen que ahora está promovido por la Coalición para la procedencia y la autenticidad del contenido (C2PA).
El procedimiento de marca de agua C2PA es un respaldo, si el contenido de la imagen se separa de su procedencia original y continua ‘manifiesto’. Fuente: https://www.imatag.com/blog/enhancing-content-ingrity-c2pa-invisible-watermarking
Posteriormente, estas ‘señales secretas’ deben ser robustas para los procedimientos automáticos de reiniciación/optimización que a menudo ocurren como transmitir una imagen a través de redes sociales y en todos los portales y plataformas, pero a menudo no son reilentales al tipo de reiniciación con pérdida a través de la compresión JPEG (y a pesar de la competencia de pretendientes como WebP, el formato JPEG todavía se usa para el 74.5% de las imágenes de todo el sitio web).
El segundo enfoque es hacer que las imágenes se vayan a la manipulación, como se propone inicialmente en el documento de 2013 Esquema de autenticación de integridad de imágenes basado en la teoría de puntos fijos. En lugar de confiar en marcas de agua o firmas digitales, este método utilizó una transformación matemática llamada Convolución gaussiana y deconvolución (GCD) para empujar las imágenes hacia un estado estable que se rompería si se alteraría.
Desde el documento ‘Esquema de autenticación de integridad de imágenes basado en la teoría de puntos fijos’: resultados de localización de manipulación utilizando una imagen de punto fijo con una señal a ruido de señal a ruido de 59.7802 dB. Los rectángulos blancos indican las regiones sometidas a ataques. El panel A (izquierda) muestra las modificaciones aplicadas, incluidos los ataques de ruido, filtrado y copias localizados. El panel B (derecha) muestra la salida de detección correspondiente, resaltando las áreas manipuladas identificadas por el proceso de autenticación. Fuente: https://arxiv.org/pdf/1308.0679
Quizás el concepto se entiende más fácilmente en el contexto de reparar una tela de encaje delicada: no importa cuán fina sea la nave empleada para parchear la filigrana, la sección reparada inevitablemente será discernible.
Este tipo de transformación, cuando se aplica repetidamente a una imagen en escala de grises, la empuja gradualmente hacia un estado donde aplica la transformación nuevamente no produce más cambio.
Esta versión estable de la imagen se llama punto fijo. Los puntos fijos son raros y altamente sensibles a los cambios: cualquier pequeña modificación a una imagen de punto fijo seguramente romperá su fijado estado, facilitando la detección de la manipulación.
Como de costumbre con tales enfoques, los artefactos de la compresión de JPEG pueden amenazar la integridad del esquema:
A la izquierda, vemos una marca de agua aplicada a la cara de la imagen icónica ‘Lenna’ (Lena), que es clara bajo compresión normal. A la derecha, con el 90% de compresión JPEG, podemos ver que la distinción entre la marca de agua percibida y el crecimiento del ruido JPEG está disminuyendo. Después de múltiples relevos, o en la configuración de compresión más alta, la mayoría de los esquemas de marca de agua enfrentan problemas con los artefactos de compresión JPEG. Fuente: https://arxiv.org/pdf/2106.14150
¿Qué pasaría si, en cambio, los artefactos de compresión JPEG pudieran usarse como el medio central para obtener un punto fijo? En tal caso, no habría necesidad de sistemas de atornillado adicionales, ya que el mismo mecanismo que generalmente causa problemas para la marca de agua y la detección de manipulación formaría la base del marco de detección de manipulaciones en sí.
Compresión de JPEG como línea de base de seguridad
Tal sistema se presenta en un nuevo artículo de dos investigadores de la Universidad de Buffalo de la Universidad Estatal de Nueva York. Noble Imagen revelada de Tamper usando puntos fijos JPEGla nueva oferta se basa en el trabajo de 2013 y las obras relacionadas, al formular oficialmente sus principios centrales, por primera vez, así como al aprovechar ingeniosamente la compresión de JPEG como un método para producir una imagen ‘autoautenticante’.
Los autores se expanden:
‘El estudio revela que una imagen no cambia después de someterse a varias rondas del mismo proceso de compresión y descompresión JPEG.
“En otras palabras, si un solo ciclo de compresión y descompresión JPEG se considera una transformación de la imagen, denominada transformación JPEG, entonces esta transformación exhibe la propiedad de tener puntos fijos, es decir, imágenes que permanecen inalteradas cuando se aplica la transformación JPEG”.
Desde el nuevo artículo, una ilustración de la convergencia de punto fijo JPEG. En la fila superior vemos una imagen de ejemplo que experimenta una compresión JPEG repetida, con cada iteración que muestra el número y la ubicación de los píxeles cambiantes; En la fila inferior, la distancia L2 de píxel entre iteraciones consecutivas se traza a través de diferentes configuraciones de calidad de compresión. Irónicamente, no hay mejor resolución de esta imagen disponible. Fuente: https://arxiv.org/pdf/2504.17594
En lugar de introducir transformaciones externas o marcas de agua, el nuevo artículo define el proceso JPEG en sí mismo como un sistema dinámico. En este modelo, cada ciclo de compresión y descompresión mueve la imagen hacia un punto fijo. Los autores prueban que, después de un número finito de iteraciones, cualquier imagen alcanza o se aproxima a un estado donde una mayor compresión no producirá cambios.
Los investigadores indican*:
‘Cualquier alteración de la imagen causará desviaciones de los puntos fijos JPEG, que pueden detectarse como cambios en los bloques JPEG después de una sola ronda de compresión y descompresión de JPEG …
‘Las imágenes propuestas de manipulación basada en puntos fijos JPEG tienen dos ventajas. En primer lugar, las imágenes evidentes de manipulación eliminan la necesidad de almacenamiento externo de características verificables, como lo requiere la imagen de las huellas dactilares (esquemas), o la incrustación de trazas ocultas, como en los métodos de marca de agua de imagen. La imagen en sí sirve como prueba de autenticidad, lo que hace que el esquema sea inherentemente evidente.
‘En segundo lugar, dado que JPEG es un formato ampliamente utilizado y, a menudo, el paso final en la tubería de procesamiento de imágenes, el método propuesto es resistente a las operaciones JPEG. Esto contrasta con el original (enfoque) que puede perder rastros de integridad debido a JPEG ‘.
La idea clave del documento es que la convergencia JPEG no es solo un subproducto de su diseño, sino un resultado matemáticamente inevitable de sus operaciones. La transformación discreta del coseno, la cuantización, el redondeo y el truncamiento juntos forman una transformación que (en las condiciones correctas) conduce a un conjunto predecible de puntos fijos.
Esquema para el proceso de compresión/descompresión JPEG formulado para el nuevo trabajo.
A diferencia de la marca de agua, este método requiere Sin señal incrustada. La única referencia es la propia consistencia de la imagen bajo una compresión adicional. Si la recompresión no produce ningún cambio, la imagen se presume auténtica. Si es así, la manipulación se indica por la desviación.
Pruebas
Los autores validaron este comportamiento utilizando un millón de parches de ocho por oight de datos de imagen en escala de grises de ocho por ocho bits. Al aplicar la compresión y descompresión de JPEG repetidas a estos parches sintéticos, observaron que la convergencia a un punto fijo ocurre dentro de un número finito de pasos. Este proceso se monitoreó midiendo la distancia L2 en cuanto a píxeles entre las iteraciones consecutivas, con las diferencias disminuyendo hasta que los parches se estabilizaran.
Diferencia L2 entre iteraciones consecutivas para un millón de parches 8 × 8, medidos bajo cualidades de compresión JPEG variables. Cada proceso comienza con un solo parche comprimido con JPEG y rastrea la reducción en la diferencia en las compresiones repetidas.
Para evaluar la detección de manipulación, los autores construyeron imágenes JPEG de manipulación y aplicaron cuatro tipos de ataques: sal y pimienta ruido; copia operaciones; empalme de fuentes externas; y compresión de doble jpeg usando una tabla de cuantificación diferente.
Ejemplo de imágenes RGB de punto fijo con detección y localización de manipulación, incluidos los cuatro métodos de interrupción utilizados por los autores. En la fila inferior, podemos ver que cada estilo de perturbación traiciona, en relación con la imagen de punto fijo generada.
Después de la manipulación, las imágenes se volvieron a comprometer utilizando la matriz de cuantización original. Las desviaciones del punto fijo se detectaron identificando bloques de imágenes que exhibían diferencias distintas de cero después de la recompresión, lo que permite la detección y la localización de regiones tamponadas.
Dado que el método se basa completamente en las operaciones estándar de JPEG, las imágenes de punto fijo funcionan bien con los espectadores y editores regulares de JPEG; Pero los autores señalan que si la imagen se recupera en un nivel de calidad diferente, puede perder su estado de punto fijo, lo que podría romper la autenticación, y debe manejarse cuidadosamente en el uso del mundo real.
Si bien esta no es solo una herramienta para analizar la salida de JPEG, tampoco agrega mucha complejidad. En principio, podría verse en flujos de trabajo existentes con un costo o interrupción mínima.
El documento reconoce que un adversario sofisticado podría intentar crear cambios adversos que preserven el estado de punto fijo; Pero los investigadores sostienen que tales esfuerzos probablemente introducirían artefactos visibles, socavando el ataque.
Si bien los autores no afirman que los JPEG de punto fijo podrían reemplazar sistemas de procedencia más amplios como C2PA, sugieren que los métodos de punto fijo podrían complementar los marcos de metadatos externos al ofrecer una capa adicional de evidencia de manipulación que persiste incluso cuando los metadatos se despojan o se pierden.
Conclusión
El enfoque de punto fijo JPEG ofrece una alternativa simple y autónoma a los sistemas de autenticación convencionales, que no requieren metadatos, marcas de agua o archivos de referencia externos, y en su lugar derivan autenticidad directamente del comportamiento predecible del proceso de compresión.
De esta manera, el método recupera la compresión de JPEG, una fuente frecuente de degradación de datos, como mecanismo para la verificación de integridad. En este sentido, el nuevo artículo es uno de los enfoques más innovadores e inventivos del problema que he encontrado en los últimos años.
El nuevo trabajo apunta a un cambio de complementos en capas para la seguridad, y hacia los enfoques que se basan en las características incorporadas de los medios en sí. A medida que los métodos de manipulación se vuelven más sofisticados, las técnicas que prueban la propia estructura interna de la imagen pueden comenzar a importar más.
Además, muchos sistemas alternativos propusieron para abordar este problema introducen una fricción significativa al requerir cambios en los flujos de trabajo de procesamiento de imágenes de larga data, algunos de los cuales han estado operando de manera confiable durante años, o incluso décadas, y que exigirían una justificación mucho más fuerte para la reorganización.
* Mi conversión de las citas en línea de los autores a hipervínculos.
Publicado por primera vez el viernes 25 de abril de 2025