Jpeg ai difumina la línea entre real y sintético

-

spot_img

En febrero de este año, se publicó el Estándar Internacional JPEG AI, después de varios años de investigación destinados a usar técnicas de aprendizaje automático para producir un códec de imágenes más pequeño y más fácilmente transmisible y almacenable, sin una pérdida de calidad perceptiva.

Desde la corriente de publicación oficial para JPEG AI, una comparación entre la relación señal / ruido máxima (PSNR) y el enfoque unido a ML de JPEG AI. Fuente: https://jpeg.org/jpegai/documentation.html

Una posible razón por la cual este Adviento llegó a pocos titulares es que los PDF básicos para este anuncio (irónicamente) no estaban disponibles a través de portales de acceso libre como ARXIV. No obstante, Arxiv ya había presentado una serie de estudios que examinan la importancia de JPEG AI en varios aspectos, incluidos los artefactos de compresión poco comunes del método y su importancia para los forenses.

Un estudio comparó los artefactos de compresión, incluidos los de un borrador anterior de JPEG AI, descubriendo que el nuevo método tenía una tendencia a difuminar el texto, no un asunto menor en los casos en que el códec podría contribuir a una cadena de evidencia. Fuente: https://arxiv.org/pdf/2411.06810

Debido a que JPEG AI altera las imágenes de manera que imiten los artefactos de los generadores de imágenes sintéticas, las herramientas forenses existentes tienen dificultades para diferenciar las imágenes reales de las falsas:

Después de la compresión de JPEG AI, los algoritmos de última generación ya no pueden separar el contenido auténtico de las regiones manipuladas en los mapas de localización, según un artículo reciente (marzo de 2025). Los ejemplos de origen que se ven a la izquierda son imágenes manipuladas/falsas, en las que las regiones manipuladas están claramente delineadas bajo técnicas forenses estándar (imagen central). Sin embargo, la compresión JPEG AI le da a las imágenes falsas una capa de credibilidad (imagen a la derecha). Fuente: https://arxiv.org/pdf/2412.03261

Una razón es que JPEG AI está capacitado utilizando una arquitectura modelo similar a las utilizadas por sistemas generativos que las herramientas forenses tienen como objetivo detectar:

El nuevo artículo ilustra la similitud entre las metodologías de compresión de imagen impulsada por IA y imágenes reales generadas por IA. Fuente: https://arxiv.org/pdf/2504.03191

Por lo tanto, ambos modelos pueden producir algunas características visuales subyacentes similares, desde un punto de vista forense.

Cuantificación

Este cruce ocurre debido a cuantificacióncomún a ambas arquitecturas, y que se utiliza en el aprendizaje automático, tanto como un método para convertir datos continuos en puntos de datos discretos, y como una técnica de optimización que puede adelgazar significativamente el tamaño del archivo de un modelo capacitado (entusiastas de la síntesis de imágenes casuales estará familiarizado con la espera entre un lanzamiento de modelo oficial y una versión cuantificada comunitaria que puede funcionar con hardware local).

En este contexto, la cuantización se refiere al proceso de conversión de los valores continuos en la representación latente de la imagen en pasos fijos y discretos. JPEG AI utiliza este proceso para reducir la cantidad de datos necesarios para almacenar o transmitir una imagen simplificando la representación numérica interna.

Aunque la cuantización hace que la codificación sea más eficiente, también impone regularidades estructurales que pueden parecerse a los artefactos dejados por modelos generativos, lo suficientemente sutil como para evadir la percepción, pero perjudicial para las herramientas forenses.

En respuesta, los autores de un nuevo trabajo titulado Tres señales forenses para imágenes JPEG AI proponer técnicas interpretables y no neurales que detecten la compresión de JPEG AI; determinar si una imagen ha sido recompresada; y distinguir las imágenes reales comprimidas de las generadas por completo por AI.

Método

Correlaciones de color

El artículo propone tres ‘señales forenses’ adaptadas a las imágenes JPEG AI: Correlaciones del canal de colorintroducido durante los pasos de preprocesamiento de JPEG AI; distorsiones medibles en la calidad de imagen a través de compresiones repetidas que revelan eventos de recompresión; y Patrones de cuantificación de espacios latentes que ayudan a distinguir entre imágenes comprimidas por JPEG AI y las generadas por modelos AI.

Leer  Por qué los camiones virtuales impulsados ​​por la IA de Waabi son el futuro de la tecnología autónoma

Con respecto al enfoque basado en la correlación de color, la tubería de preprocesamiento de JPEG AI introduce dependencias estadísticas entre los canales de color de la imagen, creando una firma que puede servir como una señal forense.

JPEG AI convierte las imágenes RGB en el espacio de color YUV y realiza un submuestreo de croma 4: 2: 0, lo que implica la reducción de los canales de crominanza antes de la compresión. Este proceso conduce a correlaciones sutiles entre los residuos de alta frecuencia de los canales rojos, verdes y azules, correlaciones que no están presentes en imágenes sin comprimir, y que difieren en la resistencia de las producidas por la compresión JPEG tradicional o los generadores de imágenes sintéticas.

Una comparación de cómo la compresión JPEG AI altera las correlaciones de color en las imágenes.

Arriba podemos ver una comparación del documento que ilustra cómo la compresión JPEG AI altera las correlaciones de color en las imágenes, utilizando el canal rojo como ejemplo.

El panel A compara imágenes sin comprimir con las comprimidas con JPEG AI, lo que demuestra que la compresión aumenta significativamente la correlación entre canales; El panel B aísla el efecto del preprocesamiento de JPEG AI, solo la conversión de color y el submuestreo, lo que demuestra que incluso este paso solo eleva las correlaciones notablemente; El panel C muestra que la compresión tradicional de JPEG también aumenta ligeramente las correlaciones, pero no en el mismo grado; y el panel D examina las imágenes sintéticas, con MidJourney-V5 y Adobe Firefly que muestran aumentos de correlación moderados, mientras que otros permanecen más cerca de los niveles sin comprimir.

Distorsión de tasas

El toque de distorsión de la distorsión identifica la recompresión de JPEG AI mediante el seguimiento de cómo la calidad de imagen, medida por la relación de señal / ruido máxima (PSNR), disminuye en un patrón predecible a través de múltiples pases de compresión.

La investigación sostiene que la comprimir repetidamente una imagen con JPEG AI conduce a pérdidas progresivamente más pequeñas, pero aún medibles, en la calidad de la imagen, como se cuantifica por PSNR, y que esta degradación gradual forma la base de una señal forense para detectar si se ha recompensado una imagen.

A diferencia del JPEG tradicional, donde los métodos anteriores rastrearon cambios en bloques de imágenes específicos, JPEG AI requiere un enfoque diferente, debido a su arquitectura de compresión neural; Por lo tanto, los autores proponen monitorear cómo la tasa de bits y el PSNR evolucionan sobre compresiones sucesivas. Cada ronda de compresión altera la imagen menos que la anterior, y este cambio decreciente (cuando se traza contra la tasa de bits) puede revelar si una imagen ha pasado por múltiples etapas de compresión:

Una ilustración de cómo la compresión repetida afecta la calidad de la imagen en diferentes códecs, con resultados de JPEG AI y un códec neural desarrollado en https://arxiv.org/pdf/1802.01436; Ambos exhiben una disminución constante en PSNR con cada compresión adicional, incluso en tasas de bits más bajas. Por el contrario, la compresión tradicional de JPEG mantiene una calidad relativamente estable en múltiples compresiones, a menos que la tasa de bits sea alta.

En la imagen de arriba, vemos curvas de distorsión de velocidad gráfica para JPEG AI; un segundo códec basado en la IA; y JPEG tradicional, descubriendo que JPEG AI y el códec neural muestran una disminución constante de PSNR en todas las tasas de bits, mientras que JPEG tradicional solo muestra una degradación notable a tasas de bits mucho más altas. Este comportamiento proporciona una señal cuantificable que puede usarse para marcar imágenes JPEG AI recompensadas.

Leer  Codificación de vibos: cómo la IA está cambiando el desarrollo de software para siempre

Al extraer cómo la tasa de bits y la calidad de la imagen evolucionan en múltiples rondas de compresión, los autores construyeron de manera similar una firma que ayuda a marcar si se ha reconstruido una imagen, lo que proporciona una posible señal forense práctica en el contexto de JPEG AI.

Cuantificación

Como vimos anteriormente, uno de los problemas forenses más desafiantes planteados por JPEG AI es su similitud visual con las imágenes sintéticas generadas por los modelos de difusión. Ambos sistemas utilizan arquitecturas codificadoras -decodificador que procesan imágenes en un espacio latente comprimido y a menudo dejan artefactos sutiles de muestreo.

Estos rasgos compartidos pueden confundir a los detectores, incluso aquellos que se vuelven a entrenar en las imágenes JPEG AI. Sin embargo, queda una diferencia estructural clave: JPEG AI aplica cuantización, un paso que redondea los valores latentes a niveles discretos para una compresión eficiente, mientras que los modelos generativos generalmente no lo hacen.

El nuevo artículo utiliza esta distinción para diseñar una señal forense que pruebe indirectamente para la presencia de cuantización. El método analiza cómo la representación latente de una imagen responde al redondeo, suponiendo que si una imagen ya se ha cuantificado, su estructura latente exhibirá un patrón de alineación medible con valores redondeados.

Estos patrones, aunque invisibles para el ojo, producen diferencias estadísticas que pueden ayudar a separar las imágenes reales comprimidas de las completamente sintéticas.

Un ejemplo de los espectros promedio de Fourier revela que tanto las imágenes comprimidas con JPEG AI como las generadas por modelos de difusión como MidJourney-V5 y la difusión estable XL exhiben patrones regulares similares a la cuadrícula en el dominio de frecuencia, artefactos comúnmente vinculados a la altura. Por el contrario, las imágenes reales carecen de estos patrones. Esta superposición en la estructura espectral ayuda a explicar por qué las herramientas forenses a menudo confunden las imágenes reales comprimidas con las sintéticas.

Es importante destacar que los autores muestran que esta señal funciona en diferentes modelos generativos y sigue siendo efectiva incluso cuando la compresión es lo suficientemente fuerte como para cero secciones completas del espacio latente. Por el contrario, las imágenes sintéticas muestran respuestas mucho más débiles a esta prueba de redondeo, ofreciendo una forma práctica de distinguir entre los dos.

El resultado se pretende como una herramienta liviana e interpretable que se dirige a la diferencia central entre la compresión y la generación, en lugar de depender de los artefactos de superficie frágil.

Datos y pruebas

Compresión

Para evaluar si su señal de correlación de color podría detectar de manera confiable la compresión de JPEG AI (es decir, un primer paso de la fuente sin comprimir), los autores lo probaron en imágenes sin comprimir de alta calidad del conjunto de datos de elevación, comprimiéndolas en una variedad de ramas de bits, utilizando la implementación de referencia JPEG AI.

Entrenaron un bosque aleatorio simple en los patrones estadísticos de las correlaciones del canal de color (particularmente cómo el ruido residual en cada canal se alineó con los demás) y lo compararon con una red neuronal ResNet50 entrenada directamente en los píxeles de la imagen.

Precisión de detección de la compresión de JPEG AI utilizando características de correlación de color, comparadas con múltiples tasas de bits. El método es más efectivo en tasas de bits más bajas, donde los artefactos de compresión son más fuertes y muestra una mejor generalización a los niveles de compresión invisibles que el modelo de base RESNET50.

Si bien el ResNet50 alcanzó una mayor precisión cuando los datos de la prueba coincidían estrechamente con sus condiciones de entrenamiento, luchó para generalizarse en diferentes niveles de compresión. El enfoque basado en la correlación, aunque mucho más simple, demostró ser más consistente en todas las tasas de bits, especialmente a tasas de compresión más bajas donde el preprocesamiento de JPEG AI tiene un efecto más fuerte.

Leer  6 nuevas características de proyectos de chatgpt que necesita saber

Estos resultados sugieren que incluso sin un aprendizaje profundo, es posible detectar la compresión de JPEG AI utilizando señales estadísticas que permanecen interpretables y resistentes.

Recompensa

Para evaluar si JPEG AI reLa compresión se puede detectar de manera confiable, los investigadores probaron el ejemplo de la distorsión de la velocidad en un conjunto de imágenes comprimidas en diversas tasas de bits, algunas solo una vez y otras por segunda vez usando JPEG AI.

Este método consistió en extraer un vector de características 17 dimensional para rastrear cómo la tasa de bits de la imagen y PSNR evolucionaron en tres compresión. Este conjunto de características capturó cuánta calidad se perdió en cada paso, y cómo se comportan las tasas latentes e hiperprior, las mádricas a las que los métodos tradicionales basados ​​en píxeles no pueden acceder fácilmente.

Los investigadores capacitaron a un bosque aleatorio en estas características y compararon su rendimiento con un resnet50 entrenado en parches de imagen:

Resultados para la precisión de clasificación de un bosque aleatorio entrenado en características de distorsión de tarifas para detectar si se ha recompensado una imagen JPEG AI. El método funciona mejor cuando la compresión inicial es fuerte (es decir, en tasas de bits más bajas), y luego supera constantemente un resnet50 basado en píxeles, especialmente en los casos en que la segunda compresión es más suave que la primera.

El bosque aleatorio demostró ser notablemente efectivo cuando la compresión inicial era fuerte (es decir, en tasas de bits más bajas), revelando diferencias claras entre las imágenes simplificadas simples y dobles. Al igual que con la señal anterior, la iteración ResNet50 luchó para generalizarse, particularmente cuando se probó en los niveles de compresión que no había visto durante el entrenamiento.

Las características de distorsión de la velocidad, por el contrario, se mantuvieron estables en una amplia gama de escenarios. En particular, la señal funcionó incluso cuando se aplicó a un códec diferente basado en la IA, lo que sugiere que el enfoque se generaliza más allá de JPEG AI.

Jpeg ai e imágenes sintéticas

Para la ronda de pruebas finales, los autores probaron si sus características basadas en cuantización pueden distinguir entre imágenes comprimidas con JPEG AI e imágenes completamente sintéticas generadas por modelos como MidJourney, Difusión estable, Dall-E 2, Glide y Adobe Firefly.

Para esto, los investigadores utilizaron un subconjunto del conjunto de datos SynthBuster, mezclando fotos reales de la base de datos Raise con imágenes generadas de una gama de modelos basados ​​en difusión y ganancia.

Ejemplos de imágenes sintéticas en SynthBuster, generados utilizando indicaciones de texto inspiradas en fotografías naturales del conjunto de datos Rais-1k. Las imágenes se crearon con varios modelos de difusión, con indicaciones diseñadas para producir contenido fotorrealista y texturas en lugar de representaciones estilizadas o artísticas. Fuente: https://ieeExplore.ieee.org/document/10334046

Las imágenes reales se comprimieron utilizando JPEG AI en varios niveles de tasa de bit, y la clasificación se planteó como una tarea bidireccional: JPEG AI versus un generador específico o una tasa de bits específica versus difusión estable XL.

Las características de cuantización (correlaciones extraídas de representaciones latentes) se calcularon a partir de una región fija de 256 × 256 y se alimentaron a un clasificador de bosque aleatorio. Como línea de base, un resnet50 fue entrenado en parches de píxeles de los mismos datos.

Precisión de clasificación de un bosque aleatorio que utiliza características de cuantización para separar imágenes comprimidas con JPEG AI de imágenes sintéticas.

En la mayoría de las condiciones, el enfoque basado en cuantización superó la línea de base ResNet50, particularmente en tasas de bits bajas donde los artefactos de compresión eran más fuertes.

Los autores afirman:

‘La línea de base ResNet50 funciona mejor para las imágenes de deslizamiento con una precisión del 66.1%, pero de lo contrario se generaliza peor que las características de cuantización. Las características de cuantización exhiben una buena generalización entre las resistencias a la compresión y los tipos de generadores.

‘La importancia de los coeficientes que se cuantifican a cero se muestran en el rendimiento muy respetable de los truncados (características), que en muchos casos funcionan comparables al clasificador ResNet50.

‘Sin embargo, las características de cuantización que usan el entero completo no anunciado (vector) todavía funcionan notablemente mejor. Estos resultados confirman que la cantidad de ceros después de la cuantización es una señal importante para diferenciar las imágenes comprimidas con IA y generadas por IA.

‘Sin embargo, también muestra que también otros factores contribuyen. La precisión del vector completo para detectar JPEG AI es para todas las tasas de bits superiores al 91.0%, y la compresión más fuerte conduce a mayores precisiones “.

Una proyección del espacio de características usando UMAP mostró una clara separación entre JPEG AI y las imágenes sintéticas, con tasas de bits más bajas que aumentan la distancia entre las clases. Un valor atípico consistente fue Glide, cuyas imágenes se agruparon de manera diferente y tenían la precisión de detección más baja de cualquier generador probado.

Visualización de UMAP bidimensional de imágenes sintéticas y comprimidas y sintéticas JPEG AI, basada en características de cuantización. La gráfica izquierda muestra que las tasas de bits JPEG AI inferiores crean una mayor separación de las imágenes sintéticas; La trama correcta, cómo las imágenes de diferentes generadores se agrupan claramente dentro del espacio de características.

Finalmente, los autores evaluaron qué tan bien las características se mantuvieron bajo el postprocesamiento típico, como la recompresión JPEG o la reducción de muestras. Si bien el rendimiento disminuyó con el procesamiento más pesado, la caída fue gradual, lo que sugiere que el enfoque conserva cierta robustez incluso en condiciones degradadas.

Evaluación de la robustez de la característica de cuantificación bajo el procesamiento posterior, incluida la recompresión JPEG (JPG) y el cambio de tamaño de imagen (RS).

Conclusión

No está garantizado que JPEG AI disfrutará de una amplia adopción. Por un lado, hay suficiente deuda de infraestructura en cuestión para imponer fricción a cualquier nuevo códec; E incluso un códec ‘convencional’ con un pedigrí fino y un amplio consenso en cuanto a su valor, como AV1, tiene dificultades para desalojar los métodos titulares de larga data.

En lo que respecta al posible choque del sistema con los generadores de IA, los artefactos de cuantización característica que ayudan a actual La generación de detectores de imágenes de IA puede disminuirse o reemplazarse en última instancia por trazas de un tipo diferente, en sistemas posteriores (suponiendo que los generadores de IA siempre dejarán residuos forenses, lo cual no es seguro).

Esto significaría que las propias características de cuantización de JPEG AI, tal vez junto con otras señales identificadas por el nuevo artículo, pueden no terminar colisionando con el rastro forense de los nuevos sistemas de IA generativos más efectivos.

Sin embargo, si JPEG AI continúa operando como un En realidad ‘AI Wash’, que difumina significativamente la distinción entre imágenes reales y generadas, sería difícil presentar un caso convincente para su absorción.

Publicado por primera vez el martes 8 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares