Restaurar y editar imágenes humanas con ai

-

spot_img

Una nueva colaboración entre la Universidad de California Merced y Adobe ofrece un avance sobre el estado de la artista en finalización de la imagen humana -La tarea muy estudiada de partes de personas ocluidas o ocultas de ‘desobedecer’ de las imágenes de personas, como fines como la prueba virtual, la animación y la edición de fotos.

Además de reparar imágenes dañadas o cambiarlas a capricho de un usuario, los sistemas de finalización de imágenes humanas, como el complemento, pueden imponer ropa novedosa (a través de una imagen de referencia adjunta, como en la columna central en estos dos ejemplos) en imágenes existentes. Estos ejemplos son del extenso PDF suplementario para el nuevo artículo. Fuente: https://liagm.github.io/completeme/pdf/supp.pdf

El nuevo enfoque, titulado Completo: finalización de la imagen humana basada en referenciautiliza imágenes de entrada suplementarias para ‘sugerir’ al sistema qué contenido debe reemplazar la sección oculta o faltante de la representación humana (de ahí la aplicabilidad a los marcos de prueba basados ​​en la moda):

El sistema completo puede ajustar el contenido de referencia a la parte oscurecida u ocluida de una imagen humana.

El nuevo sistema utiliza una arquitectura dual de red en U y un Atención centrada en la región (RFA) Bloqueo que reúne los recursos al área pertinente de la instancia de restauración de imágenes.

Los investigadores también ofrecen un nuevo y desafiante sistema de referencia diseñado para evaluar las tareas de finalización basadas en referencias (ya que el complemento es parte de una cadena de investigación existente y continua en la visión por computadora, aunque hasta ahora no ha tenido un esquema de referencia).

En las pruebas, y en un estudio de usuario bien escala, el nuevo método salió adelante en la mayoría de las métricas y en general. En ciertos casos, los métodos rivales se fontaron por completo por el enfoque basado en referencia:

Del material complementario: el método AnyDoor tiene dificultades particulares para decidir cómo interpretar una imagen de referencia.

El documento dice:

‘Experimentos extensos en nuestro punto de referencia demuestran que el complemento supera los métodos de vanguardia, tanto basados ​​en referencias como no basados ​​en referencias, en términos de métricas cuantitativas, resultados cualitativos y estudios de usuarios.

“Particularmente en escenarios desafiantes que involucran posturas complejas, patrones de ropa intrincados y accesorios distintivos, nuestro modelo logra constantemente la fidelidad visual superior y la coherencia semántica”.

Lamentablemente, la presencia de GitHub del proyecto no contiene ningún código, ni promete ninguno, y la iniciativa, que también tiene una modesta página del proyecto, parece enmarcada como una arquitectura patentada.

Otros ejemplo del rendimiento subjetivo del nuevo sistema contra métodos anteriores. Más detalles más adelante en el artículo.

Método

El marco completo se basa en una red U de referencia, que maneja la integración del material auxiliar en el proceso, y una red U cohesiva, que acomoda una gama más amplia de procesos para obtener el resultado final, como se ilustra en el esquema conceptual a continuación:

El esquema conceptual para completar. Fuente: https://arxiv.org/pdf/2504.20042

El sistema primero codifica la imagen de entrada enmascarada en una representación latente. Al mismo tiempo, la referencia U-Net procesa múltiples imágenes de referencia, cada una que muestran diferentes regiones del cuerpo, para extraer características espaciales detalladas.

Leer  Inferencia de IA a escala: explorar la arquitectura de alto rendimiento de Nvidia Dynamo

Estas características pasan a través de un bloque de atención centrado en la región integrado en la red U ‘completa’, donde se enmascaran selectivamente utilizando las máscaras de región correspondientes, asegurando que el modelo atiende solo a las áreas relevantes en las imágenes de referencia.

Las características enmascaradas se integran con características semánticas derivadas globales de clip a través de atención cruzada desacoplada, lo que permite que el modelo reconstruya el contenido faltante con detalles finos y coherencia semántica.

Para mejorar el realismo y el robustez, el proceso de enmascaramiento de entrada combina oclusiones aleatorias basadas en la red con máscaras de forma del cuerpo humano, cada una aplicada con igual probabilidad, aumentando la complejidad de las regiones faltantes que el modelo debe completar.

Solo como referencia

Métodos anteriores para la entrada de imagen basada en referencia generalmente se basan en de nivel semántico codificadores. Los proyectos de este tipo incluyen Clip en sí y Dinov2, que extraen características globales de imágenes de referencia, pero a menudo pierden los detalles espaciales finos necesarios para la preservación de identidad precisa.

Del documento de lanzamiento para el enfoque de Dinov2 más antiguo, que se incluye en las pruebas de comparación en el nuevo estudio: las superposiciones de colores muestran los primeros tres componentes principales del análisis de componentes principales (PCA), aplicados a parches de imagen dentro de cada columna, destacando cómo Dinov2 agrupa partes similares de objetos similares a través de imágenes variadas. A pesar de las diferencias en pose, estilo o representación, las regiones correspondientes (como alas, extremidades o ruedas) coinciden consistentemente, ilustrando la capacidad del modelo para aprender la estructura parcial sin supervisión. Fuente: https://arxiv.org/pdf/2304.07193

Completeme aborda este aspecto a través de una referencia U-Net especializada inicializada a partir de la difusión estable 1.5, pero funciona sin el paso de ruido de difusión*.

Cada imagen de referencia, que cubre diferentes regiones del cuerpo, está codificada en características latentes detalladas a través de esta red U. Las características semánticas globales también se extraen por separado usando clip, y ambos conjuntos de características se almacenan en caché para un uso eficiente durante la integración basada en la atención. Por lo tanto, el sistema puede acomodar múltiples entradas de referencia de manera flexible, al tiempo que preserva la información de apariencia de grano fino.

Orquestación

El cohesivo U-Net administra las etapas finales del proceso de finalización. Adaptado de la variante de entrada de la difusión estable 1.5, toma como entrada la imagen de fuente enmascarada en forma latente, junto con características espaciales detalladas extraídas de las imágenes de referencia y las características semánticas globales extraídas por el codificador del clip.

Estas diversas entradas se reúnen a través del bloque RFA, que juega un papel fundamental en la dirección del modelo hacia las áreas más relevantes del material de referencia.

Antes de ingresar al mecanismo de atención, las características de referencia se enmascaran explícitamente para eliminar regiones no relacionadas y luego concatenadas con la representación latente de la imagen fuente, asegurando que la atención se dirige con la mayor precisión posible.

Leer  IMANDRAX: Un avance en el razonamiento de la IA neurosymbólica y la verificación lógica automatizada

Para mejorar esta integración, Completeme incorpora un mecanismo de atención cruzada desacoplada adaptado del marco del adaptador IP:

El adaptador IP, parte de los cuales se incorpora a Completeme, es uno de los proyectos más exitosos y a menudo apalancados de los últimos tres años de desarrollo tumultuosos en arquitecturas de modelos de difusión latente. Fuente: https://ip-adapter.github.io/

Esto permite que el modelo procese características visuales detalladas espacialmente y un contexto semántico más amplio a través de flujos de atención separados, que luego se combinan, lo que resulta en una reconstrucción coherente que, según los autores, conservan la identidad y los detalles de grano fino.

Margen de evaluación

En ausencia de un conjunto de datos apropiado para su finalización humana basada en referencia, los investigadores han propuesto el suyo. El punto de referencia (sin nombre) se construyó curando pares de imágenes seleccionadas del conjunto de datos WPOSE diseñado para el proyecto Unihuman 2023 de Adobe Research.

Ejemplos de poses del proyecto Adobe Research 2023 Unihuman. Fuente: https://github.com/adobe-research/unihuman?tab=readme-ov-file#data-eprep

Los investigadores dibujaron manualmente máscaras de origen para indicar las áreas de entrada, en última instancia, obteniendo 417 grupos de imágenes tripartitas que constituyen una imagen de origen, máscara e imagen de referencia.

Dos ejemplos de grupos derivados inicialmente del conjunto de datos de referencia WPose, y curados ampliamente por los investigadores del nuevo documento.

Los autores utilizaron el Modelo de lenguaje grande Llava (LLM) para generar indicaciones de texto que describen las imágenes de origen.

Las métricas utilizadas eran más extensas de lo habitual; Además de la relación de señal / ruido máxima habitual (PSNR), el índice de similitud estructural (SSIM) y la similitud de parche de imagen perceptual aprendida (LPIP, en este caso para evaluar regiones enmascaradas), los investigadores usaron Dino para puntajes de similitud; Dreamsim para la evaluación de resultados de la generación; y clip.

Datos y pruebas

Para probar el trabajo, los autores utilizaron tanto el modelo de difusión V1.5 estable predeterminada como el modelo de entrada 1.5. El codificador de imágenes del sistema utilizó el modelo de visión de clip, junto con las capas de proyección, redes neuronales modestas que remodelan o alinean las salidas de clip para que coincidan con las dimensiones de características internas utilizadas por el modelo.

El entrenamiento tuvo lugar para 30,000 iteraciones sobre ocho Nvidia A100 GPU, supervisada por pérdida de error cuadrado (MSE) medio, a un tamaño de lote de 64 y una tasa de aprendizaje de 2 × 10-5. Varios elementos se eliminaron al azar durante la capacitación, para evitar que el sistema sea el sobreajuste de los datos.

El conjunto de datos se modificó desde el conjunto de datos de piezas hasta todo el conjunto de datos, basado en el conjunto de datos multimodal profundo.

Ejemplos de las piezas a un conjunto de datos completo, utilizados en el desarrollo de los datos curados para completar. Fuente: https://huanngzh.github.io/parts2whole/

Los autores afirman:

‘Para cumplir con nuestros requisitos, (reconstruimos) los pares de capacitación utilizando imágenes ocludadas con múltiples imágenes de referencia que capturan varios aspectos de la apariencia humana junto con sus etiquetas textuales cortas.

‘Cada muestra en nuestros datos de entrenamiento incluye seis tipos de apariencia: ropa de la parte superior del cuerpo, ropa de la parte inferior del cuerpo, ropa de cuerpo entero, cabello o ropa de cabeza, cara y zapatos. Para la estrategia de enmascaramiento, aplicamos un 50% de enmascaramiento de la red aleatoria entre 1 y 30 veces, mientras que para el otro 50%, usamos una máscara de forma del cuerpo humano para aumentar la complejidad del enmascaramiento.

“Después de la tubería de construcción, obtuvimos 40,000 pares de imágenes para el entrenamiento”.

Rival previo no referencia Los métodos probados fueron una gran finalización de la imagen humana ocluyada (LOHC) y el Modelo de entrada de imagen de plug-and-playnet de inpago; Los modelos basados ​​en referencia probados fueron pintar por ejemplo; Anydoor; Leftrefill; y Mimicbrush.

Leer  ¿Quién ganará la carrera de la IA en 2024? La carrera de las grandes tecnológicas hacia la AGI

Los autores comenzaron con una comparación cuantitativa sobre las métricas previamente declaradas:

Resultados para la comparación cuantitativa inicial.

Con respecto a la evaluación cuantitativa, los autores señalan que Completeme logra los puntajes más altos en la mayoría de las métricas perceptivas, incluidos CLIP-I, Dino, Dreamsim y LPIPS, que están destinados a capturar la alineación semántica y la fidelidad de la apariencia entre la salida y la imagen de referencia.

Sin embargo, el modelo no supera a todas las líneas de base en todos los ámbitos. Notablemente, los puntajes de pincel más altos en Clip-T, Leftrefill conduce en SSIM y PSNR, y MimicBrush supera ligeramente en CLIP-I.

Si bien el complemento muestra resultados consistentemente sólidos en general, las diferencias de rendimiento son modestas en algunos casos, y ciertas métricas siguen siendo lideradas por métodos anteriores de la competencia. Quizás no sea injustamente, los autores enmarcan estos resultados como evidencia de la fuerza equilibrada de Completeme en las dimensiones estructurales y perceptivas.

Las ilustraciones para las pruebas cualitativas realizadas para el estudio son demasiado numerosas para reproducir aquí, y remitimos al lector no solo al documento fuente, sino al extenso PDF suplementario, que contiene muchos ejemplos cualitativos adicionales.

Destacamos los principales ejemplos cualitativos presentados en el documento principal, junto con una selección de casos adicionales extraídos del grupo de imágenes complementarios introducidos anteriormente en este artículo:

Resultados cualitativos iniciales presentados en el documento principal. Consulte el documento de origen para una mejor resolución.

De los resultados cualitativos que se muestran anteriormente, los autores comentan:

‘Dadas las entradas enmascaradas, estos métodos de no referencia generan contenido plausible para las regiones enmascaradas utilizando antecedentes de imágenes o indicaciones de texto.

“Sin embargo, como se indica en el cuadro rojo, no pueden reproducir detalles específicos como tatuajes o patrones de ropa únicos, ya que carecen de imágenes de referencia para guiar la reconstrucción de información idéntica”.

Una segunda comparación, de la cual se muestra a continuación, se centra en los cuatro métodos basados ​​en referencia Pintar por ejemplo, AnyDoor, Lefrefill y MimicBrush. Aquí solo se proporcionaron una imagen de referencia y un mensaje de texto.

Comparación cualitativa con métodos basados ​​en referencias. Completeme produce terminaciones más realistas y preserva mejor detalles específicos de la imagen de referencia. Las cajas rojas destacan áreas de particular interés.

Los autores afirman:

‘Dada una imagen humana enmascarada y una imagen de referencia, otros métodos pueden generar contenido plausible, pero a menudo no pueden preservar la información contextual de la referencia con precisión.

‘En algunos casos, generan contenido irrelevante o asignan incorrectamente las partes correspondientes a partir de la imagen de referencia. Por el contrario, Completeme completa efectivamente la región enmascarada preservando con precisión la información idéntica y mapeando correctamente las partes correspondientes del cuerpo humano de la imagen de referencia.

Para evaluar qué tan bien los modelos se alinean con la percepción humana, los autores realizaron un estudio de usuario que involucró a 15 anotadores y 2,895 pares de muestras. Cada par comparó la salida de completa con una de las cuatro líneas de base basadas en referencias: pintar por ejemplo, cualquiera de los que, oor, leftrefill o mimicbrush.

Los anotadores evaluaron cada resultado en función de la calidad visual de la región completa y la medida en que conservó las características de identidad de la referencia, y aquí, evaluando la calidad y la identidad general, el complemento obtuvo un resultado más definitivo:

Resultados del estudio del usuario.

Conclusión

En todo caso, los resultados cualitativos en este estudio se ven socavados por su gran volumen, ya que un examen minucioso indica que el nuevo sistema es una entrada más efectiva en este área relativamente nicho pero acalorada de edición de imágenes neuronales.

Sin embargo, se necesita un poco de cuidado adicional y ampliado en el PDF original para apreciar qué tan bien el sistema adapta el material de referencia al área ocludida en comparación (en casi todos los casos) con los métodos anteriores.

Recomendamos encarecidamente al lector que examine cuidadosamente la avalancha de resultados inicialmente confusa, si no abrumadora presentada en el material suplementario.

* Es interesante observar cómo la versión V1.5 ahora severamente severamente seguida sigue siendo la favorita de los investigadores, en parte debido a las pruebas similares de Legacy, pero también porque es la menos censurada y posiblemente más fácilmente capacitable de todas las iteraciones de difusión estables, y no comparte el obstáculo censurioso de las liberaciones de flujo foss.

Especificación de VRAM no dada: sería 40 GB u 80 GB por tarjeta.

Publicado por primera vez el martes 29 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares