Desde que la IA generativa comenzó a generar interés público, el campo de la investigación de la visión por computadora ha profundizado su interés en desarrollar modelos de IA capaces de comprender y replicar las leyes físicas; Sin embargo, el desafío de enseñar sistemas de aprendizaje automático para simular fenómenos como la gravedad y la dinámica líquida ha sido un foco significativo de los esfuerzos de investigación durante al menos los últimos cinco años.
Dado que los modelos de difusión latente (LDMS) dominaron la escena generativa de IA en 2022, los investigadores se han centrado cada vez más en la capacidad limitada de la arquitectura de LDM para comprender y reproducir fenómenos físicos. Ahora, este problema ha ganado prominencia adicional con el desarrollo histórico del modelo de video generativo de OpenAi Sora, y el (posiblemente) lanzamiento reciente más consecuente del código abierto video Modelos de video Hunyuan y WAN 2.1.
Reflexionando mal
La mayoría de las investigaciones destinadas a mejorar la comprensión de la física de LDM se han centrado en áreas como la simulación de la marcha, la física de partículas y otros aspectos del movimiento newtoniano. Estas áreas han atraído la atención porque las inexactitudes en los comportamientos físicos básicos socavarían inmediatamente la autenticidad del video generado por IA.
Sin embargo, un pequeño pero creciente hilo de investigación se concentra en una de las mayores debilidades de LDM: es una relativa incapacidad para producir preciso reflexiones.
Del documento de enero de 2025 ‘Realidad que refleja la realidad: permitiendo modelos de difusión para producir reflexiones de espejo fieles’, ejemplos de ‘falla de reflexión’ versus el enfoque de los investigadores. Fuente: https://arxiv.org/pdf/2409.14677
Este problema también fue un desafío durante la era CGI y sigue siendo así en el campo de los videojuegos, donde los algoritmos de trazado de rayos simulan el camino de la luz a medida que interactúa con las superficies. El rastreo de rayos calcula cómo los rayos de luz virtual rebotan o pasan a través de objetos para crear reflexiones, refracciones y sombras realistas.
Sin embargo, debido a que cada rebote adicional aumenta en gran medida el costo computacional, las aplicaciones en tiempo real deben intercambiar latencia contra la precisión al limitar el número de rebotes de rayos de luz permitidos.
Una representación de un haz liviano prácticamente calculado en un escenario tradicional basado en 3D (es decir, CGI), utilizando tecnologías y principios desarrollados por primera vez en la década de 1960, y que llegaron a la fulminación entre 1982-93 (el lapso entre ‘Tron’ (1982) y ‘Jurassic Park’ (1993). Fuente: https://www.unrealengine.com/en-us/explainers/ray-tracing/what-is-real-time-ray-trazing
Por ejemplo, representar una tetera cromada frente a un espejo podría implicar un proceso de rastreo de rayos donde los rayos de luz rebotan repetidamente entre superficies reflectantes, creando un bucle casi infinito con poco beneficio práctico para la imagen final. En la mayoría de los casos, una profundidad de reflexión de dos o tres rebotes ya excede lo que el espectador puede percibir. Un solo rebote daría como resultado un espejo negro, ya que la luz debe completar al menos dos viajes para formar un reflejo visible.
Cada rebote adicional aumenta bruscamente el costo computacional, a menudo duplicando los tiempos de renderizado, lo que hace que el manejo más rápido de los reflejos sea una de las oportunidades más significativas para mejorar la calidad de renderización de rayos.
Naturalmente, se producen reflexiones, y son esenciales para el fotorrealismo, en escenarios mucho menos obvios, como la superficie reflectante de una calle de la ciudad o un campo de batalla después de la lluvia; el reflejo de la calle opuesta en una ventana o puerta de vidrio; o en las gafas de los caracteres representados, donde se requieren que aparezcan objetos y entornos.
Una reflexión gemela simulada lograda a través de la composición tradicional para una escena icónica en ‘The Matrix’ (1999).
Problemas de imagen
Por esta razón, los marcos que eran populares antes del advenimiento de los modelos de difusión, como los campos de radiancia neuronal (NERF), y algunos retadores más recientes como la chispa gaussiana han mantenido sus propias luchas para promulgar reflexiones de manera natural.
Ref.2-Nerf Project (en la foto a continuación) propuso un método de modelado basado en Nerf para escenas que contienen una caja de vidrio. En este método, la refracción y la reflexión se modelaron utilizando elementos que dependían e independientemente de la perspectiva del espectador. Este enfoque permitió a los investigadores estimar las superficies donde ocurrió la refracción, específicamente superficies de vidrio, y permitió la separación y el modelado de componentes de luz directos y reflejados.
Ejemplos del documento REF2NERF. Fuente: https://arxiv.org/pdf/2311.17116
Otras soluciones de reflexión orientadas a Nerf de los últimos 4-5 años han incluido Nerfren, reflejando la realidad y el 2024 de Meta de Meta Campos de radiancia neuronal consciente de la reflexión plana proyecto.
Para GSPLAT, documentos como Mirror-3DGS, Splatting Gaussian reflectante y Refgaussian han ofrecido soluciones con respecto al problema de reflexión, mientras que el Proyecto Nero 2023 propuso un método a medida para incorporar cualidades reflexivas en representaciones neuronales.
Espejo
Obtener un modelo de difusión para respetar la lógica de reflexión es posiblemente más difícil que con enfoques explícitamente estructurales y no semánticos, como la empalme gaussiana y el nerf. En los modelos de difusión, es probable que una regla de este tipo se incruste de manera confiable si los datos de entrenamiento contienen muchos ejemplos variados en una amplia gama de escenarios, lo que lo hace en gran medida dependiente de la distribución y calidad del conjunto de datos original.
Tradicionalmente, agregar comportamientos particulares de este tipo es el alcance de una lora o el ajuste del modelo base; Pero estas no son soluciones ideales, ya que un Lora tiende a sesgar la salida hacia sus propios datos de capacitación, incluso sin solicitar, mientras que los ajustes finos, además de ser caros, pueden desembolsar un modelo importante irrevocablemente lejos de la corriente principal, y engendrar un host de herramientas personalizadas relacionadas que nunca funcionarán con ninguno otro cepa del modelo, incluido el original.
En general, mejorar los modelos de difusión requiere que los datos de capacitación presten mayor atención a la física de la reflexión. Sin embargo, muchas otras áreas también necesitan atención especial similar. En el contexto de los conjuntos de datos de hiperescala, donde la curación personalizada es costosa y difícil, abordar cada debilidad de esta manera no es práctica.
No obstante, las soluciones al problema de reflexión de LDM surgen de vez en cuando. Un reciente esfuerzo de este tipo, de la India, es el Espejo Proyecto, que ofrece un conjunto de datos mejorado y un método de capacitación capaz de mejorar el estado del arte en este desafío particular en la investigación de difusión.
Más a la derecha, los resultados de Mirrorverse se enfrentan a dos enfoques anteriores (dos columnas centrales). Fuente: https://arxiv.org/pdf/2504.15397
Como podemos ver en el ejemplo anterior (la imagen de características en el PDF del nuevo estudio), Mirrorverse mejora en las ofertas recientes que abordan el mismo problema, pero está lejos de ser perfecto.
En la imagen superior derecha, vemos que los frascos de cerámica están algo a la derecha de donde deberían estar, y en la imagen a continuación, lo que técnicamente no debería presentar un reflejo de la copa en absoluto, una reflexión inexacta ha sido calzada en el área derecha -manual, contra la lógica de los ángulos reflectantes naturales.
Por lo tanto, echaremos un vistazo al nuevo método, no tanto porque puede representar el estado actual del arte en la reflexión basada en la difusión, sino igualmente para ilustrar la medida en que esto puede ser un problema intratable para modelos de difusión latentes, estáticos y videos por igual, ya que los ejemplos de reflectividad de reflectividad requeridos tienen más probabilidades de estar enredados con acciones particulares y escenarios.
Por lo tanto, esta función particular de los LDM puede continuar sin enfoques específicos de la estructura como NERF, GSPLAT y también CGI tradicional.
El nuevo artículo se titula Mirrorverse: empujando modelos de difusión para reflejar de manera realista el mundoy proviene de tres investigadores en Vision y AI Lab, IISc Bangalore y el Instituto Samsung R&D en Bangalore. El documento tiene una página de proyecto asociada, así como un conjunto de datos en Hugging Face, con el código fuente publicado en GitHub.
Método
Los investigadores observan desde el principio de la dificultad que modelos como la difusión estable y el flujo tienen en respecto a las indicaciones basadas en la reflexión, ilustrando el problema de manera hábil:
Desde el documento: modelos actuales de texto de texto a imagen, SD3.5 y Flux, que exhiben desafíos significativos en la producción de reflexiones consistentes y geométricamente precisas cuando se les solicita que los generen en una escena.
Los investigadores se han desarrollado Mirrorfusion 2.0un modelo generativo basado en difusión dirigido a mejorar el fotorrealismo y la precisión geométrica de los reflejos de espejo en imágenes sintéticas. La capacitación para el modelo se basó en el conjunto de datos recién curado de los investigadores, titulado Mirrorgen2diseñado para abordar las debilidades de generalización observadas en enfoques anteriores.
MirrorGen2 se expande en metodologías anteriores mediante la introducción posicionamiento de objetos aleatorios, rotaciones aleatoriasy Grounding de objeto explícitocon el objetivo de garantizar que las reflexiones sigan siendo plausibles en una gama más amplia de posturas de objetos y ubicaciones en relación con la superficie del espejo.
Esquema para la generación de datos sintéticos en Mirrorverse: la tubería de generación de datos de datos aplicó aumentos clave mediante posicionamiento aleatorio, rotación y conexión a tierra dentro de la escena utilizando el posicionador 3D. Los objetos también se emparejan en combinaciones semánticamente consistentes para simular relaciones espaciales complejas y oclusiones, lo que permite que el conjunto de datos capture interacciones más realistas en escenas de objetos múltiples.
Para fortalecer aún más la capacidad del modelo para manejar arreglos espaciales complejos, la tubería MirrorGen2 incorpora emparejado Escenas de objetos, lo que permite que el sistema represente mejor oclusiones e interacciones entre múltiples elementos en configuraciones reflexivas.
El documento dice:
‘Las categorías se emparejan manualmente para garantizar una coherencia semántica, por ejemplo, combinar una silla con una mesa. Durante la representación, después de posicionar y girar el primario (objeto), se muestrea y se arregla un adicional (objeto) de la categoría emparejada para evitar superposición, asegurando regiones espaciales distintas dentro de la escena.
Con respecto a la base de objetos explícitos, aquí los autores se aseguraron de que los objetos generados se “anclaban” al suelo en los datos sintéticos de salida, en lugar de “flotar” de manera inapropiada, que pueden ocurrir cuando los datos sintéticos se generan a escala o con métodos altamente automatizados.
Dado que la innovación del conjunto de datos es fundamental para la novedad del documento, procederemos antes de lo habitual a esta sección de la cobertura.
Datos y pruebas
Synmirrorv2
El conjunto de datos Synmirrorv2 de los investigadores fue concebido para mejorar la diversidad y el realismo de los datos de capacitación de reflexión de espejo, con objetos 3D obtenidos de los objetos de objetos objecismos y de Amazon Berkeley (ABO), con estas selecciones refinadas posteriormente a través de objetos 3DIT, así como el proceso de filtrado del Proyecto de Mirrorfusion V1 de baja calidad. Esto dio como resultado un grupo refinado de 66,062 objetos.
Ejemplos del conjunto de datos objecisco, utilizados en la creación del conjunto de datos curado para el nuevo sistema. Fuente: https://arxiv.org/pdf/2212.08051
La construcción de escenas implicó colocar estos objetos en pisos texturizados de texturas CC y fondos HDRI del repositorio CGI de Polyhaven, utilizando espejos rectangulares de pared completa o altos. La iluminación se estandarizó con una luz de área colocada arriba y detrás de los objetos, en un ángulo de cuarenta y cinco grados. Los objetos se escalaron para que se ajustaran dentro de un cubo unitario y se colocaron utilizando una intersección precomputada del espejo y la visión de la cámara, asegurando la visibilidad.
Se aplicaron rotaciones aleatorias alrededor del eje Y, y una técnica de conexión a tierra utilizada para evitar ‘artefactos flotantes’.
Para simular escenas más complejas, el conjunto de datos también incorporó múltiples objetos organizados de acuerdo con emparejamientos semánticamente coherentes basados en categorías ABO. Se colocaron objetos secundarios para evitar la superposición, creando 3.140 escenas de múltiples objetos diseñadas para capturar oclusiones variadas y relaciones de profundidad.
Ejemplos de vistas renderizadas desde el conjunto de datos de los autores que contienen múltiples (más de dos) objetos, con ilustraciones de segmentación de objetos y visualizaciones de mapa de profundidad que se ven a continuación.
Proceso de capacitación
Reconociendo que el realismo sintético solo era insuficiente para una generalización robusta a los datos del mundo real, los investigadores desarrollaron un proceso de aprendizaje curricular de tres etapas para capacitar a Mirrorfusion 2.0.
En la etapa 1, los autores inicializaron los pesos de las ramas de acondicionamiento y generación con el punto de control de difusión estable V1.5, y ajustaron el modelo en la división de entrenamiento de un solo objeto del conjunto de datos Synmirrorv2. A diferencia del mencionado anteriormente Reflejando la realidad Proyecto, los investigadores no congelaron la rama de la generación. Luego entrenaron el modelo para 40,000 iteraciones.
En la etapa 2, el modelo fue ajustado para 10,000 iteraciones adicionales, en la división de entrenamiento de objetos múltiples de Synmirrorv2, para enseñar al sistema a manejar oclusiones, y los arreglos espaciales más complejos que se encuentran en escenas realistas.
Finalmente, en la etapa 3, se realizaron 10,000 iteraciones adicionales de Finetuning utilizando datos del mundo real del conjunto de datos MSD, utilizando mapas de profundidad generados por el estimador de profundidad monocular Matterport3d.
Ejemplos del conjunto de datos MSD, con escenas del mundo real analizadas en mapas de profundidad y segmentación. Fuente: https://arxiv.org/pdf/1908.09101
Durante la capacitación, se omitieron las indicaciones de texto para el 20 por ciento del tiempo de entrenamiento para alentar al modelo a hacer un uso óptimo de la información de profundidad disponible (es decir, un enfoque ‘enmascarado’).
La capacitación tuvo lugar en cuatro GPU A100 NVIDIA para todas las etapas (la especificación de VRAM no se suministra, aunque habría sido de 40 GB u 80 GB por tarjeta). Una tasa de aprendizaje de 1e-5 se usó en un tamaño por lotes de 4 por GPU, debajo del ADAMW Optimizer.
Este esquema de entrenamiento aumentó progresivamente la dificultad de las tareas presentadas al modelo, comenzando con escenas sintéticas más simples y avanzando hacia composiciones más desafiantes, con la intención de desarrollar una sólida transferibilidad del mundo real.
Pruebas
Los autores evaluaron Mirrorfusion 2.0 contra el estado anterior, Mirrorfusion, que sirvió como línea de base, y realizó experimentos en el conjunto de datos MirrorbenchV2, que cubre tanto escenas de objeto único como múltiple.
Se realizaron pruebas cualitativas adicionales en muestras del conjunto de datos MSD, y el conjunto de datos de objetos escaneados de Google (GSO).
La evaluación utilizó 2.991 imágenes de un solo objeto de categorías vistas e invisibles, y 300 escenas de dos objetos de ABO. El rendimiento se midió utilizando la relación señal / ruido máxima (PSNR); Índice de similitud estructural (SSIM); y los puntajes aprendidos de similitud de parche de imagen perceptual (LPIP), para evaluar la calidad de reflexión en la región de espejo enmascarado. La similitud de clip se utilizó para evaluar la alineación textual con las indicaciones de entrada.
En las pruebas cuantitativas, los autores generaron imágenes usando cuatro semillas para un aviso específico y seleccionando la imagen resultante con la mejor puntuación SSIM. Las dos tablas informadas de resultados para las pruebas cuantitativas se muestran a continuación.
Resultados cuantitativos izquierdo para la calidad de generación de reflexión de un solo objeto en la división de objeto individual MirrorbenchV2. Mirrorfusion 2.0 superó la línea de base, con los mejores resultados que se muestran en negrita. Resultados cuantitativos correctos para la calidad de generación de reflexión de objetos múltiples en la división de objetos múltiples MirrorBenchV2. Mirrorfusion 2.0 entrenado con múltiples objetos superó a la versión entrenada sin ellos, con los mejores resultados que se muestran en negrita.
Los autores comentan:
‘(Los resultados) muestran que nuestro método supera el método de referencia y la finura de los objetos múltiples mejora los resultados en escenas complejas’.
La mayor parte de los resultados, y los enfatizados por los autores, consideran las pruebas cualitativas. Debido a las dimensiones de estas ilustraciones, solo podemos reproducir parcialmente los ejemplos del documento.
Comparación en MirrorbenchV2: la línea de base no pudo mantener reflexiones precisas y consistencia espacial, mostrando una orientación incorrecta en la silla y reflejos distorsionados de múltiples objetos, mientras que (los autores sostienen) Mirrorfusion 2.0 representa correctamente la silla y los sofás, con posición precisa, orientación y estructura.
De estos resultados subjetivos, los investigadores opinan que el modelo de línea de base no pudo hacer que la orientación de objetos y las relaciones espaciales en las reflexiones no produzcan con precisión, a menudo produciendo artefactos como rotación incorrecta y objetos flotantes. Mirrorfusion 2.0, entrenado en Synmirrorv2, los autores sostienen, conserva la orientación y el posicionamiento de los objetos correctos en escenas de un solo objeto y de objetos múltiples, lo que resulta en reflexiones más realistas y coherentes.
A continuación vemos resultados cualitativos en el conjunto de datos GSO mencionado anteriormente:
Comparación en el conjunto de datos GSO. La línea de base tergiversa la estructura del objeto y produjo reflexiones distorsionadas incompletas, mientras que Mirrorfusion 2.0, los autores sostienen, conserva la integridad espacial y genera una geometría, color y detalles precisas, incluso en objetos desactualizados.
Aquí los autores comentan:
‘Mirrorfusion 2.0 genera reflexiones significativamente más precisas y realistas. Por ejemplo, en la Fig. 5 (A – arriba), Mirrorfusion 2.0 refleja correctamente las manijas del cajón (resaltadas en verde), mientras que el modelo de línea de base produce una reflexión inverosímil (resaltada en rojo).
“Del mismo modo, para la” taza blanca de color amarillo “en la Fig. 5 (b), Mirrorfusion 2.0 ofrece una geometría convincente con artefactos mínimos, a diferencia de la línea de base, que no puede capturar con precisión la geometría y la apariencia del objeto”.
La prueba cualitativa final fue contra el conjunto de datos MSD del mundo real antes mencionado (resultados parciales que se muestran a continuación):
Resultados de la escena del mundo real que comparan Mirrorfusion, Mirrorfusion 2.0 y Mirrorfusion 2.0, ajustados en el conjunto de datos MSD. Mirrorfusion 2.0, según los autores, captura detalles de escena complejos con mayor precisión, incluidos los objetos desordenados en una mesa y la presencia de múltiples espejos dentro de un entorno tridimensional. Aquí solo se muestran resultados parciales, debido a las dimensiones de los resultados en el artículo original, al que remitimos al lector para obtener resultados completos y una mejor resolución.
Aquí los autores observan que si bien Mirrorfusion 2.0 se desempeñó bien en los datos de MirrorbenchV2 y GSO, inicialmente tuvo problemas con escenas complejas del mundo real en el conjunto de datos MSD. Autorizar el modelo en un subconjunto de MSD mejoró su capacidad para manejar entornos desordenados y múltiples espejos, lo que resulta en reflexiones más coherentes y detalladas sobre la división de prueba retenida.
Además, se realizó un estudio de usuario, donde se informa que el 84% de los usuarios tienen generaciones preferidas de Mirrorfusion 2.0 sobre el método de referencia.
Resultados del estudio del usuario.
Dado que los detalles del estudio del usuario han sido relegados al apéndice del documento, remitimos al lector a los detalles del estudio.
Conclusión
Aunque varios de los resultados que se muestran en el documento son mejoras impresionantes en el estado del arte, el estado del arte para esta búsqueda en particular es tan abismal que incluso una solución agregada poco convincente puede ganar con un módulo de esfuerzo. La arquitectura fundamental de un modelo de difusión es tan hostil para el aprendizaje confiable y la demostración de una física consistente, que el problema en sí mismo se plantea realmente, y aparentemente no está dispuesto hacia una solución elegante.
Además, agregar datos a los modelos existentes ya es el método estándar para remediar la déficit en el rendimiento de LDM, con todas las desventajas enumeradas anteriormente. Es razonable suponer que si los conjuntos de datos de alta escala futuros prestaran más atención a la distribución (y la anotación) de los puntos de datos relacionados con la reflexión, podríamos esperar que los modelos resultantes manejaran mejor este escenario.
Sin embargo, lo mismo es cierto para varios otros bugbears en la producción de LDM: ¿quién puede decir cuál de ellos merece el esfuerzo y el dinero involucrado en el tipo de solución que los autores del nuevo artículo proponen aquí?
Publicado por primera vez el lunes 28 de abril de 2025