Mejora de la precisión de la edición de imágenes de IA

-

spot_img

Aunque el Modelo de Difusión Latente Firefly de Adobe (LDM) es posiblemente uno de los mejores disponibles actualmente, los usuarios de Photoshop que han probado sus características generativas habrán notado que no puede fácilmente que no pueda Editar imágenes existentes – En cambio, es completamente sustitutos El área seleccionada del usuario con imágenes basadas en la solicitud de texto del usuario (aunque Firefly es experta en integrar la sección generada resultante en el contexto de la imagen).

En la versión beta actual, Photoshop puede al menos incorporar una imagen de referencia como un mensaje de imagen parcial, que atrapa el producto insignia de Adobe hasta el tipo de funcionalidad que los usuarios de difusión estable han disfrutado durante más de dos años, gracias a marcos de terceros como Controlnet:

La beta actual de Adobe Photoshop permite el uso de imágenes de referencia al generar contenido nuevo dentro de una selección, aunque es un asunto de impredecible en este momento.

Esto ilustra un problema abierto en la investigación de síntesis de imágenes: la dificultad que los modelos de difusión tienen en la edición de imágenes existentes sin implementar una ‘reimaginación’ a gran escala de la selección indicada por el usuario.

Aunque este impermeable basado en difusión obedece el indicador del usuario, reinventa completamente el tema de origen sin tener en cuenta la imagen original (excepto combinando la nueva generación con el entorno). Fuente: https://arxiv.org/pdf/2502.20376

Este problema ocurre porque los LDM generan imágenes a través de la renovación iterativa, donde cada etapa del proceso está condicionada en el mensaje de texto suministrado por el usuario. Con el contenido indicado en el texto convertido en tokens de incrustación, y con un modelo de hiperescala, como difusión estable o flujo que contiene cientos de miles (o millones) de incrustaciones cercanas a la solicitud, el proceso tiene una distribución condicional calculada para apuntar; y cada paso dado es un paso hacia este ‘objetivo de distribución condicional’.

Así que ese es texto a imagen, un escenario en el que el usuario “espera lo mejor”, ya que no se sabe exactamente cómo será la generación.

En cambio, muchos han tratado de usar la poderosa capacidad generativa de un LDM para editar imágenes existentes, pero esto implica un acto de equilibrio entre la fidelidad y la flexibilidad.

Cuando se proyecta una imagen en el espacio latente del modelo por métodos como la inversión DDIM, el objetivo es recuperar el original lo más cerca posible y al mismo tiempo permite ediciones significativas. El problema es que cuanto más precisamente se reconstruye una imagen, más se adhiere el modelo a su original Estructura, lo que dificulta las modificaciones importantes.

En común con muchos otros marcos de edición de imágenes basados ​​en difusión propuestos en los últimos años, la arquitectura Renoise tiene dificultades para hacer un cambio real en la apariencia de la imagen, con solo una indicación superficial de una corbata de lazo que aparece en la base de la garganta del gato.

Por otro lado, si el proceso prioriza la capacidad de edición, el modelo afloja su agarre en el original, lo que hace que sea más fácil introducir cambios, pero a costa de consistencia general con la imagen fuente:

Misión cumplida, pero es una transformación en lugar de un ajuste, para la mayoría de los marcos de edición de imágenes basados ​​en IA.

Dado que es un problema que incluso los considerables recursos de Adobe están luchando por abordar, entonces podemos considerar razonablemente que el desafío es notable y puede no permitir soluciones fáciles, si las hay.

Leer  DeepSeek-V3: cómo una startup china de IA supera a los gigantes tecnológicos en costo y rendimiento

Inversión estrecha

Por lo tanto, los ejemplos en un nuevo artículo publicado esta semana me llamaron la atención, ya que el trabajo ofrece una mejora valiosa y notable en el estado actual del arte en esta área, al demostrar que capaz de aplicar ediciones sutiles y refinadas a las imágenes proyectadas en el espacio latente de un modelo, sin que las ediciones sean insignificantes o de otra manera sobre el contenido original en la imagen fuente::

Con una inversión estrecha aplicada a los métodos de inversión existentes, la selección de la fuente se considera de una manera mucho más granular, y las transformaciones se ajustan al material original en lugar de sobrescribirlo.

Los aficionados y profesionales de LDM pueden reconocer este tipo de resultado, ya que gran parte se puede crear en un flujo de trabajo complejo utilizando sistemas externos como ControlNet y IP-Adapter.

De hecho, el nuevo método, doblado Inversión estrecha -De hecho, aprovecha el adaptador IP, junto con un modelo dedicado basado en la cara, para representaciones humanas.

Desde el documento original de adaptación IP 2023, ejemplos de ediciones apropiadas de elaboración del material fuente. Fuente: https://arxiv.org/pdf/2308.06721

El logro de la señal de la inversión estrecha, entonces, es tener técnicas complejas procesalizadas en una única modalidad complementaria que se puede aplicar a los sistemas existentes, incluidas muchas de las distribuciones LDM más populares.

Naturalmente, esto significa que la inversión estrecha (TI), como los sistemas adjuntos que aprovecha, utiliza la imagen de origen como factor de acondicionamiento para su propia versión editada, en lugar de confiar únicamente en las indicaciones de texto precisas:

Otros ejemplos de la capacidad de la inversión estrecha para aplicar ediciones verdaderamente combinadas al material fuente.

Aunque los autores reconocen que su enfoque no está libre de la tensión tradicional y continua entre la fidelidad y la edición en las técnicas de edición de imágenes basadas en difusión, informan los resultados de vanguardia al inyectar TI en los sistemas existentes, frente al rendimiento de línea de base.

El nuevo trabajo se titula Inversión ajustada: inversión condicionada por imágenes para edición de imágenes realesy proviene de cinco investigadores de la Universidad de Tel Aviv y Snap Research.

Método

Inicialmente, se utiliza un modelo de lenguaje grande (LLM) para generar un conjunto de indicaciones de texto variadas a partir de las cuales se genera una imagen. Luego se aplica la inversión ddim mencionada anteriormente a cada imagen con tres condiciones de texto: el mensaje de texto utilizado para generar la imagen; una versión abreviada de la misma; y un mensaje nulo (vacío).

Leer  ¿Por qué los chatbots de IA son a menudo sycofánticos?

Con el ruido invertido devuelto de estos procesos, las imágenes se regeneran nuevamente con la misma condición y sin orientación libre de clasificadores (CFG).

Los puntajes de inversión DDIM en varias métricas con diferentes configuraciones de inmediato.

Como podemos ver en el gráfico anterior, los puntajes en varias métricas mejoran con una mayor longitud de texto. Las métricas utilizadas fueron la relación señal / ruido máxima (PSNR); L2 Distancia; Índice de similitud estructural (SSIM); y similitud de parche de imagen perceptual aprendida (LPIP).

Consciente de la imagen

La inversión efectivamente ajustada cambia la forma en que un modelo de difusión del host edita imágenes reales acondicionando el proceso de inversión en la imagen misma en lugar de depender solo del texto.

Normalmente, la inversión de una imagen en el espacio de ruido de un modelo de difusión requiere estimar el ruido de arranque que, cuando se dice, reconstruye la entrada. Los métodos estándar usan un mensaje de texto para guiar este proceso; Pero un aviso imperfecto puede conducir a errores, perder detalles o alterar estructuras.

La inversión ajustada utiliza el adaptador IP para alimentar la información visual en el modelo, de modo que reconstruya la imagen con mayor precisión, convirtiendo las imágenes de origen en tokens de acondicionamiento y proyectarlas en la tubería de inversión.

Estos parámetros son editables: aumentar la influencia de la imagen de origen hace que la reconstrucción sea casi perfecta, mientras que reducirla permite cambios más creativos. Esto hace que la inversión ajustada sea útil para las modificaciones sutiles, como cambiar el color de una camisa, o ediciones más significativas, como intercambiar objetos, sin los efectos secundarios comunes de otros métodos de inversión, como la pérdida de detalles finos o aberraciones inesperadas en el contenido de fondo.

Los autores afirman:

“Observamos que la inversión estrecha se puede integrar fácilmente con métodos de inversión anteriores (por ejemplo, editar DDPM amigable, Renoise) al (cambiar el núcleo de difusión nativo para el modelo alterado del adaptador IP), (y) la inversión estrecha mejora consistentemente dichos métodos en términos de reconstrucción y edición.

Datos y pruebas

Los investigadores evaluaron TI sobre su capacidad para reconstruir y editar imágenes de origen del mundo real. Todos los experimentos utilizaron difusión estable XL con un programador DDIM como se describe en el papel de difusión estable original; y todas las pruebas utilizaron 50 pasos de renovación en una escala de guía predeterminada de 7.5.

Para el acondicionamiento de la imagen, se usó SDXL VIT-H de SDXL IP-adaptador IP. Para las pruebas de pocos pasos, los investigadores utilizaron SDXL-TURBO con un programador de Euler, y también realizaron experimentos con flujo.1-DEV, acondicionando el modelo en el último caso en flujo pulido, utilizando la inversión de RF en 28 pasos.

PULID se usó únicamente en casos con caras humanas, ya que este es el dominio que Pulid fue capacitado para abordar, y aunque es notable que se usa un subsistema especializado para este posible tipo de inmediato, nuestro interés sincero en generar caras humanas sugiere que depender únicamente de los pesos más amplios de un modelo de base como la difusión estable como estable no ser adecuada para las estándares que exigen esta tarea particular.

Leer  IA en la Olimpiada Internacional de Matemáticas: cómo AlphaProof y AlphaGeometry 2 lograron la medalla de plata

Las pruebas de reconstrucción se realizaron para evaluación cualitativa y cuantitativa. En la imagen a continuación, vemos ejemplos cualitativos para la inversión de DDIM:

Resultados cualitativos para la inversión ddim. Cada fila muestra una imagen altamente detallada junto con sus versiones reconstruidas, con cada paso utilizando condiciones progresivamente más precisas durante la inversión y la renovación. A medida que el acondicionamiento se vuelve más preciso, la calidad de reconstrucción mejora. La columna más a la derecha demuestra los mejores resultados, donde la imagen original en sí se usa como condición, logrando la mayor fidelidad. CFG no se usó en ninguna etapa. Consulte el documento de origen para una mejor resolución y detalle.

El documento dice:

‘Estos ejemplos destacan que el acondicionamiento del proceso de inversión en una imagen mejora significativamente la reconstrucción en regiones altamente detalladas.

‘Notablemente, en el tercer ejemplo de (la imagen a continuación), nuestro método reconstruye con éxito el tatuaje en la parte posterior del boxeador correcto. Además, la pose de la pierna del boxeador se conserva con mayor precisión, y el tatuaje en la pierna se vuelve visible.

Otros resultados cualitativos para la inversión ddim. Las condiciones descriptivas mejoran la inversión de DDIM, con el acondicionamiento de imágenes que superan el texto, especialmente en imágenes complejas.

Los autores también probaron una inversión estrecha como un módulo de entrega para los sistemas existentes, enfrentando las versiones modificadas con su rendimiento de referencia.

Los tres sistemas probados fueron la inversión DDIM antes mencionada y la inversión de RF; y también Renoise, que comparte alguna autoría con el documento en discusión aquí. Dado que los resultados de DDIM no tienen dificultades para obtener una reconstrucción del 100%, los investigadores se centraron solo en la capacidad de edición.

(Las imágenes de resultados cualitativos están formateados de una manera que es difícil de reproducir aquí, por lo que remitimos al lector al PDF de origen para una cobertura más completa y una mejor resolución, a pesar de que algunas selecciones se presentan a continuación)

Izquierda, resultados de reconstrucción cualitativa para una inversión estrecha con SDXL. Derecha, reconstrucción con flujo. El diseño de estos resultados en el trabajo publicado hace que sea difícil de reproducir aquí, por lo tanto, consulte el PDF de origen para obtener una verdadera impresión de las diferencias obtenidas.

Aquí los autores comentan:

‘Como se ilustra, la integración de la inversión estrecha con los métodos existentes mejora constantemente la reconstrucción. Para (por ejemplo,) nuestro método reconstruye con precisión el pasamanos en el ejemplo más a la izquierda y el hombre con la camisa azul en el ejemplo más a la derecha (en la Figura 5 del papel).

Los autores también probaron el sistema cuantitativamente. En línea con los trabajos anteriores, utilizaron el conjunto de validación de MS-Coco y tengan en cuenta que los resultados (ilustrados a continuación) mejoraron la reconstrucción en todas las métricas para todos los métodos.

Comparando las métricas para el rendimiento de los sistemas con y sin inversión estrecha.

A continuación, los autores probaron la capacidad del sistema para editar Fotos, enfrentándolo contra versiones de línea de base de enfoques anteriores Pronto2Prompt; Editar DDPM amigable; LED-its ++; y inversión de RF.

A continuación se muestran una selección de los resultados cualitativos del artículo para SDXL y Flux (y remitimos al lector al diseño bastante comprimido del documento original para más ejemplos).

Las selecciones de los resultados cualitativos en expansión (bastante confusamente) se extienden por todo el documento. Remitimos al lector al PDF de origen para una resolución mejorada y una claridad significativa.

Los autores sostienen que la inversión estrecha supera constantemente las técnicas de inversión existentes al lograr un mejor equilibrio entre la reconstrucción y la edición. Los métodos estándar como DDIM Inversion y Renoise pueden recuperar bien una imagen, el documento afirma que a menudo luchan por preservar los detalles finos cuando se aplican las ediciones.

Por el contrario, la inversión estrecha aprovecha el acondicionamiento de la imagen para anclar la salida del modelo más estrechamente al original, evitando las distorsiones no deseadas. Los autores sostienen que incluso cuando los enfoques competitivos producen reconstrucciones que aparecer Precisa, la introducción de ediciones a menudo conduce a artefactos o inconsistencias estructurales, y esa inversión estrecha mitiga estos problemas.

Finalmente, los resultados cuantitativos se obtuvieron evaluando la inversión estrecha contra el punto de referencia MagicBrush, utilizando la inversión DDIM y LEDITS ++, medido con el clip SIM.

Comparaciones cuantitativas de inversión estrecha contra el punto de referencia MagicBrush.

Los autores concluyen:

‘En ambos gráficos, la compensación entre la preservación de la imagen y la adherencia a la edición de destino es claramente (observado). La inversión ajustada proporciona un mejor control sobre esta compensación y conserva mejor la imagen de entrada sin dejar de alinearse con la edición (solicitante).

“Tenga en cuenta que una similitud de clip de arriba 0.3 entre una imagen y un mensaje de texto indica una alineación plausible entre la imagen y el indicador”.

Conclusión

Aunque no representa un “avance” en uno de los desafíos más espinosos en la síntesis de imágenes basada en LDM, la inversión estrecha consolida una serie de enfoques auxiliares onerosos en un método unificado de edición de imágenes basada en IA.

Aunque la tensión entre la capacidad de edición y la fidelidad no se ha reducido a este método, se reduce notablemente, según los resultados presentados. Teniendo en cuenta que el desafío central que aborda este trabajo puede resultar intratable si se trata en sus propios términos (en lugar de mirar más allá de las arquitecturas basadas en LDM en sistemas futuros), la inversión estrecha representa una mejora incremental bienvenida en el estado de arte.

Publicado por primera vez el viernes 28 de febrero de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares