Hacia el control total en la generación de videos de IA

-

spot_img

Los modelos de Foundation de Video como Hunyuan y WAN 2.1, aunque potentes, no ofrecen a los usuarios el tipo de control granular que exige la producción de películas y televisión (particularmente la producción de VFX).

En los estudios de efectos visuales profesionales, los modelos de código abierto como estos, junto con modelos anteriores basados ​​en imágenes (en lugar de video), como la difusión estable, Kandinsky y Flux, se usan típicamente junto con una gama de herramientas de apoyo que adaptan su salida bruta para satisfacer las necesidades creativas específicas. Cuando un director dice, “Eso se ve genial, pero ¿podemos hacerlo un poco más (n)?” No puede responder diciendo que el modelo no es lo suficientemente preciso como para manejar tales solicitudes.

En cambio, un equipo de AI VFX utilizará una gama de técnicas tradicionales de CGI y composicionales, aliados con procedimientos personalizados y flujos de trabajo desarrollados con el tiempo, para intentar superar un poco los límites de la síntesis de video.

Por lo tanto, por analogía, un modelo de video fundamental es muy parecido a una instalación predeterminada de un navegador web como Chrome; Hace mucho de la caja, pero si desea que se adapte a sus necesidades, en lugar de viceversa, necesitará algunos complementos.

Freaks de control

En el mundo de la síntesis de imagen basada en difusión, el sistema de terceros más importante es el control de control.

Controlnet es una técnica para agregar control estructurado a modelos generativos basados ​​en difusión, lo que permite a los usuarios guiar la generación de imágenes o videos con entradas adicionales como mapas de borde, mapas de profundidad o información de pose.

Los diversos métodos de Controlnet permiten la profundidad> imagen (fila superior), segmentación semántica> imagen (inferior izquierda) y generación de imágenes guiadas por pose de humanos y animales (abajo a la izquierda).

En lugar de confiar únicamente en las indicaciones de texto, Controlnet presenta ramas de red neuronales separadas, o adaptadoresque procesan estas señales de acondicionamiento al tiempo que preservan las capacidades generativas del modelo base.

Esto permite salidas ajustadas que se adhieren más a las especificaciones del usuario, lo que lo hace particularmente útil en aplicaciones donde se requiere composición, estructura o control de movimiento precisos:

Con una pose guía, se puede obtener una variedad de tipos de salida precisos a través de Controlnet. Fuente: https://arxiv.org/pdf/2302.05543

Sin embargo, los marcos basados ​​en adaptadores de este tipo operan externamente en un conjunto de procesos neuronales que se centran muy internamente. Estos enfoques tienen varios inconvenientes.

Primero, los adaptadores están entrenados de forma independiente, lo que lleva a conflictos de ramas Cuando se combinan múltiples adaptadores, lo que puede implicar la calidad de la generación degradada.

En segundo lugar, introducen redundancia de parámetrosque requiere un cálculo y memoria adicionales para cada adaptador, lo que hace que la escala sea ineficiente.

En tercer lugar, a pesar de su flexibilidad, los adaptadores a menudo producen subóptimo Resultados en comparación con modelos que están completamente ajustados para la generación de múltiples condiciones. Estos problemas hacen que los métodos basados ​​en adaptadores sean menos efectivos para las tareas que requieren una integración perfecta de múltiples señales de control.

Idealmente, las capacidades de Controlnet estarían entrenadas nativo En el modelo, de una manera modular que podría acomodar innovaciones obvias posteriores y muy esperadas, como la generación simultánea de video/audio, o capacidades nativas de sincronización de labios (para audio externo).

Tal como está, cada pieza adicional de funcionalidad representa una tarea de postproducción o un procedimiento no nativo que tiene que navegar los pesos estrechamente unidos y sensibles del modelo de base que está operando.

Fuldit

En este enfrentamiento se encuentra una nueva oferta de China, eso plantea un sistema donde las medidas de estilo Controlnet se hornean directamente en un modelo de video generativo en el tiempo de entrenamiento, en lugar de ser relegadas a una ocurrencia tardía.

Desde el nuevo artículo: el enfoque de FulLdit puede incorporar la imposición de identidad, la profundidad y el movimiento de la cámara en una generación nativa, y puede convocar cualquier combinación de estos a la vez. Fuente: https://arxiv.org/pdf/2503.19907

Noble Fulditel nuevo enfoque fusiona las condiciones de tareas múltiples, como la transferencia de identidad, el mapeo de profundidad y el movimiento de la cámara en una parte integrada de un modelo de video generativo entrenado, para el cual los autores han producido un modelo de prototipo capacitado y acompañando videoclips en un sitio de proyecto.

En el siguiente ejemplo, vemos generaciones que incorporan el movimiento de la cámara, la información de identidad y la información de texto (es decir, las indicaciones de texto del usuario guía):

Leer  Desde palabras hasta conceptos: cómo los modelos conceptuales grandes están redefiniendo la comprensión del lenguaje y la generación

Haga clic para jugar. Ejemplos de imposición de usuarios al estilo ControlNet con solo un modelo de base capacitado nativo. Fuente: https://fullldit.github.io/

Cabe señalar que los autores no proponen su modelo experimental capacitado como un modelo de base funcional, sino como una prueba de concepto para los modelos nativos de texto a video (T2V) y de imagen a video (I2V) que ofrecen a los usuarios más control que solo un indicador de imagen o una promutación de texto.

Dado que todavía no hay modelos similares de este tipo, los investigadores crearon un nuevo punto de referencia titulado Bobopara la evaluación de videos de varias tareas y reclamar el rendimiento de vanguardia en las pruebas similares que idearon contra enfoques anteriores. Sin embargo, dado que FullBench fue diseñado por los propios autores, su objetividad no se ha probado, y su conjunto de datos de 1.400 casos puede ser demasiado limitado para conclusiones más amplias.

Quizás el aspecto más interesante de la arquitectura que presenta el documento es su potencial para incorporar nuevos tipos de control. Los autores afirman:

‘En este trabajo, solo exploramos las condiciones de control de la cámara, las identidades y la información de profundidad. No investigamos más a fondo otras condiciones y modalidades como audio, habla, nubes de puntos, cuadros delimitadores de objetos, flujo óptico, etc. Aunque el diseño de FullLdit puede integrar sin problemas otras modalidades con una modificación mínima de arquitectura, cómo adaptar rápida y de manera rentable los modelos existentes a nuevas condiciones y modalidades sigue siendo una pregunta importante que garantiza una exploración adicional “.

Aunque los investigadores presentan FullLdit como un paso adelante en la generación de videos de varias tareas, debe considerarse que este nuevo trabajo se basa en las arquitecturas existentes en lugar de introducir un paradigma fundamentalmente nuevo.

No obstante, Fulldit actualmente está solo (que yo sepa) como un modelo de base de videos con instalaciones de control de control de control de “codificadas”, y es bueno ver que la arquitectura propuesta también puede acomodar innovaciones posteriores.

Haga clic para jugar. Ejemplos de movimientos de cámara controlados por el usuario, desde el sitio del proyecto.

El nuevo artículo se titula FulLdit: modelo de Fundación Generativa de Video de Video de varias tareas con toda atencióny proviene de nueve investigadores en la tecnología Kuaishou y la Universidad China de Hong Kong. La página del proyecto está aquí y los nuevos datos de referencia están en abrazo.

Método

Los autores sostienen que el mecanismo de atención unificado de Fulldit permite un aprendizaje de representación intermodal más fuerte al capturar relaciones espaciales y temporales en todas las condiciones:

Según el nuevo documento, FulLDIT integra múltiples condiciones de entrada a través de la autocuración completa, convirtiéndolas en una secuencia unificada. Por el contrario, los modelos basados ​​en adaptadores (más a la izquierda arriba) usan módulos separados para cada entrada, lo que lleva a redundancia, conflictos y un rendimiento más débil.

A diferencia de las configuraciones basadas en el adaptador que procesan cada flujo de entrada por separado, esta estructura de atención compartida evita los conflictos de ramas y reduce la sobrecarga de parámetros. También afirman que la arquitectura puede escalar a nuevos tipos de entrada sin un rediseño importante, y que el esquema del modelo muestra signos de generalización a combinaciones de condición no vistas durante el entrenamiento, como vincular el movimiento de la cámara con identidad de carácter.

Haga clic para jugar. Ejemplos de generación de identidad del sitio del proyecto.

En la arquitectura de Fulldit, todas las entradas de acondicionamiento, como el texto, el movimiento de la cámara, la identidad y la profundidad, se convierten primero en un formato de token unificado. Estos tokens se concatenan en una sola secuencia larga, que se procesa a través de una pila de capas de transformador utilizando la autoatición completa. Este enfoque sigue trabajos anteriores como el plan de la arena abierta y la generación de películas.

Este diseño permite que el modelo aprenda relaciones temporales y espaciales conjuntamente en todas las condiciones. Cada bloque de transformador funciona en toda la secuencia, lo que permite interacciones dinámicas entre modalidades sin depender de módulos separados para cada entrada, y, como hemos señalado, la arquitectura está diseñada para ser extensible, lo que hace que sea mucho más fácil incorporar señales de control adicionales en el futuro, sin cambios estructurales importantes.

El poder de tres

FulLDIT convierte cada señal de control en un formato de token estandarizado para que todas las condiciones puedan procesarse juntas en un marco de atención unificado. Para el movimiento de la cámara, el modelo codifica una secuencia de parámetros extrínsecos, como la posición y la orientación, para cada cuadro. Estos parámetros son imperdibles y proyectados en vectores de incrustación que reflejan la naturaleza temporal de la señal.

Leer  Ai le está dando una voz a las mascotas: el futuro de la atención médica felina comienza con una sola foto

La información de identidad se trata de manera diferente, ya que es inherentemente espacial en lugar de temporal. El modelo utiliza mapas de identidad que indican qué caracteres están presentes en qué partes de cada cuadro. Estos mapas se dividen en parchescon cada parche proyectado en una incrustación que captura señales de identidad espacial, lo que permite que el modelo asocie regiones específicas del marco con entidades específicas.

La profundidad es una señal espacio -temporal, y el modelo la maneja dividiendo videos de profundidad en parches 3D que abarcan tanto el espacio como el tiempo. Estos parches se incrustan de una manera que preserva su estructura a través de los marcos.

Una vez incrustados, todos estos tokens de condición (cámara, identidad y profundidad) se concatenan en una sola secuencia larga, lo que permite que Fulldit los procese juntos utilizando la autocuración completa. Esta representación compartida hace posible que el modelo aprenda interacciones entre modalidades y a través del tiempo sin depender de las corrientes de procesamiento aisladas.

Datos y pruebas

El enfoque de capacitación de Fulldit se basó en conjuntos de datos anotados selectivamente adaptados a cada tipo de acondicionamiento, en lugar de exigir que todas las condiciones estén presentes simultáneamente.

Para condiciones textuales, la iniciativa sigue el enfoque de subtítulos estructurados descritos en el proyecto Miradata.

Collection de videos y tuberías de anotación del Proyecto Miradata. Fuente: https://arxiv.org/pdf/2407.06358

Para el movimiento de la cámara, el conjunto de datos RealState10K fue la principal fuente de datos, debido a sus anotaciones de verdad de alta calidad de los parámetros de la cámara.

Sin embargo, los autores observaron que el entrenamiento exclusivamente en conjuntos de datos de cámaras de escena estática, como Realestate10k, tendía a reducir los objetos dinámicos y los movimientos humanos en videos generados. Para contrarrestar esto, realizaron un ajuste fino adicional utilizando conjuntos de datos internos que incluían movimientos de cámara más dinámicos.

Las anotaciones de identidad se generaron utilizando la tubería desarrollada para el Proyecto ConceptMaster, que permitió un filtrado eficiente y la extracción de información de identidad de grano fino.

El Marco ConceptMaster está diseñado para abordar los problemas de desacoplamiento de identidad al tiempo que preserva la fidelidad de conceptualidad en videos personalizados. Fuente: https://arxiv.org/pdf/2501.04698

Las anotaciones de profundidad se obtuvieron del conjunto de datos PANDA-70M usando la profundidad de cualquier cosa.

Optimización a través de la ordenación de datos

Los autores también implementaron un programa de capacitación progresiva, introduciendo condiciones más desafiantes Anteriormente en el entrenamiento Para garantizar que el modelo adquiriera representaciones sólidas antes de agregar tareas más simples. La orden de capacitación procedió de texto a cámara condiciones, entonces identidadesy finalmente profundidadcon tareas más fáciles generalmente introducidas más tarde y con menos ejemplos.

Los autores enfatizan el valor de ordenar la carga de trabajo de esta manera:

‘Durante la fase previa a la capacitación, notamos que las tareas más desafiantes exigen un tiempo de capacitación extendido y deben introducirse anteriormente en el proceso de aprendizaje. Estas tareas desafiantes implican distribuciones de datos complejas que difieren significativamente del video de salida, lo que requiere que el modelo posee una capacidad suficiente para capturarlas y representarlas con precisión.

“Por el contrario, la introducción de tareas más fáciles demasiado temprano puede llevar al modelo a priorizar el aprendizaje primero, ya que proporcionan comentarios de optimización más inmediatos, lo que obstaculiza la convergencia de tareas más desafiantes”.

Una ilustración de la orden de capacitación de datos adoptada por los investigadores, con rojo que indica un mayor volumen de datos.

Después de la capacitación inicial, una etapa final de ajuste fino refinó aún más el modelo para mejorar la calidad visual y la dinámica del movimiento. Posteriormente, la capacitación siguió a la de un marco de difusión estándar*: ruido agregado a los latentes de video, y el modelo aprende a predecirlo y eliminarlo, utilizando los tokens de condición integrados como guía.

Para evaluar de manera efectiva FULLDIT y proporcionar una comparación justa con los métodos existentes, y en ausencia de la disponibilidad de cualquier otro punto de referencia apropiado, los autores introdujeron Bobouna suite de referencia curada que consta de 1.400 casos de prueba distintos.

Una instancia de explorador de datos para el nuevo punto de referencia FullBench. Fuente: https://huggingface.co/datasets/kwaivgi/fullbench

Cada punto de datos proporcionó anotaciones de verdad de tierra para varias señales de acondicionamiento, incluidas movimiento de la cámara, identidady profundidad.

Métrica

Los autores evaluaron FulLdit utilizando diez métricas que cubren cinco aspectos principales del rendimiento: alineación de texto, control de la cámara, similitud de identidad, precisión de profundidad y calidad de video general.

Leer  De EVO 1 a Evo 2: Cómo Nvidia está redefiniendo la investigación genómica e innovaciones biológicas impulsadas por la IA

La alineación del texto se midió mediante similitud de clip, mientras que el control de la cámara se evaluó a través de error de rotación (Roterr), error de traducción (Transerr), y consistencia del movimiento de la cámara (CAMMC), siguiendo el enfoque de CAMI2V (en el CamerACTRL proyecto).

La similitud de identidad se evaluó utilizando Dino-I y CLIP-I, y la precisión del control de profundidad se cuantificó utilizando un error absoluto medio (MAE).

La calidad del video fue juzgada con tres métricas de Miradata: similitud de clip a nivel de marco para la suavidad; Distancia de movimiento óptico basado en flujo para la dinámica; y los puntajes de Laion-Aesthetic para el atractivo visual.

Capacitación

Los autores capacitaron a FullLdit utilizando un modelo de difusión interno (no revelado) de texto a video que contiene aproximadamente mil millones de parámetros. Eligieron intencionalmente un tamaño de parámetro modesto para mantener la equidad en comparaciones con métodos anteriores y garantizar la reproducibilidad.

Dado que los videos de capacitación diferían en longitud y resolución, los autores estandarizaron cada lote cambiando y acolchando videos a una resolución común, muestreando 77 cuadros por secuencia y utilizando máscaras de atención y pérdida aplicadas para optimizar la efectividad del entrenamiento.

El Adam Optimizer se usó a una velocidad de aprendizaje de 1 × 10−5 a través de un grupo de 64 GPU de NVIDIA H800, para un total combinado de 5,120 GB de VRAM (considere eso en las comunidades de síntesis de entusiastas, 24 GB en un RTX 3090 todavía se considera un estándar lujoso).

El modelo fue entrenado para alrededor de 32,000 pasos, incorporando hasta tres identidades por video, junto con 20 cuadros de condiciones de la cámara y 21 cuadros de condiciones de profundidad, ambas muestreadas uniformemente del total de 77 cuadros.

Para inferencia, el modelo generó videos a una resolución de 384 × 672 píxeles (aproximadamente cinco segundos a 15 cuadros por segundo) con 50 pasos de inferencia de difusión y una escala de guía sin clasificadores de cinco.

Métodos previos

Para la evaluación de cámara a video, los autores compararon FULLLDIT con MotionCTRL, CamerACTRL y CAMI2V, con todos los modelos entrenados utilizando el conjunto de datos RealState10K para garantizar la consistencia y la equidad.

En la generación condicionada por identidad, dado que no había modelos de identidad múltiples de código abierto comparables disponibles, el modelo se comparó con el modelo de conceptter ConceptMeter 1b-Parameter, utilizando los mismos datos de entrenamiento y arquitectura.

Para las tareas de profundidad a video, se realizaron comparaciones con CTRL-Adapter y Controlvideo.

Resultados cuantitativos para la generación de videos de una sola tarea. FulLdit se comparó con MotionCTRL, CamerACTRL y CAMI2V para la generación de cámara a video; ConceptMaster (versión de parámetro 1b) para identidad a video; y Ctrl-Adapter y Controlvideo para profundidad a video. Todos los modelos fueron evaluados utilizando su configuración predeterminada. Para consistencia, 16 cuadros se muestrearon de manera uniforme de cada método, coincidiendo con la longitud de salida de los modelos anteriores.

Los resultados indican que FulLdit, a pesar de manejar múltiples señales de acondicionamiento simultáneamente, alcanzó el rendimiento de vanguardia en métricas relacionadas con el texto, el movimiento de la cámara, la identidad y los controles de profundidad.

En las métricas de calidad general, el sistema generalmente superó a otros métodos, aunque su suavidad fue ligeramente menor que la de ConceptMaster. Aquí los autores comentan:

‘La suavidad de FulLdit es ligeramente menor que la de ConceptMaster, ya que el cálculo de la suavidad se basa en la similitud de clip entre los marcos adyacentes. Como FulLdit exhibe una dinámica significativamente mayor en comparación con ConceptMaster, la métrica de suavidad se ve afectada por las grandes variaciones entre los marcos adyacentes.

“Para la puntuación estética, dado que el modelo de calificación favorece las imágenes en el estilo de pintura y el controlvideo generalmente genera videos en este estilo, logra una puntuación alta en la estética”.

Con respecto a la comparación cualitativa, podría ser preferible referirse a los videos de muestra en el sitio del proyecto FullLdit, ya que los ejemplos PDF son inevitablemente estáticos (y demasiado grandes para reproducirse por completo aquí).

La primera sección de los resultados cualitativos en el PDF. Consulte el documento de origen para ver los ejemplos adicionales, que son demasiado extensos para reproducirse aquí.

Los autores comentan:

‘FulLdit demuestra una preservación de identidad superior y genera videos con mejor dinámica y calidad visual en comparación con (ConceptMaster). Dado que ConceptMaster y FulLdit están entrenados en la misma columna vertebral, esto resalta la efectividad de la inyección de condición con plena atención.

‘… Los (otros) resultados demuestran la controlabilidad superior y la calidad de generación de FULLDIT en comparación con los métodos existentes de profundidad a video y cámara a video’.

Una sección de los ejemplos del PDF de la salida de Fulldit con múltiples señales. Consulte el documento de origen y el sitio del proyecto para obtener ejemplos adicionales.

Conclusión

Aunque FulLdit es una incursión emocionante en un tipo de modelo de base de video más completo, uno debe preguntarse si la demanda de instrumentos de estilo ControlNet justificará la implementación de tales características a escala, al menos para proyectos de FOSS, que lucharían para obtener la enorme cantidad de poder de procesamiento de GPU necesaria, sin un respaldo comercial.

El desafío principal es que el uso de sistemas como la profundidad y la pose generalmente requiere una familiaridad no trivial con interfaces de usuarios relativamente complejas como Comfyui. Por lo tanto, parece que un modelo FOSS funcional de este tipo es más probable que sea desarrollado por un cuadro de compañías VFX más pequeñas que carecen del dinero (o la voluntad, dado que tales sistemas se vuelven obsoletos rápidamente por las actualizaciones del modelo) para curar y capacitar a dicho modelo a puerta cerrada.

Por otro lado, los sistemas ‘Rent-An-AI’ impulsados ​​por la API pueden estar bien motivados para desarrollar métodos de interpretación más simples y fáciles de usar para modelos en los que los sistemas de control auxiliar se han capacitado directamente.

Haga clic para jugar. Profundidad+controles de texto impuestos a una generación de video usando FulLdit.

* Los autores no especifican ningún modelo base conocido (es decir, SDXL, etc.)

Publicado por primera vez el jueves 27 de marzo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares