El reciente lanzamiento público del modelo de IA generativa de Hunyuan Video ha intensificado las discusiones en curso sobre el potencial de grandes modelos multimodales de visión y lenguaje para crear algún día películas completas.
Sin embargo, como hemos observado, esta es una perspectiva muy lejana por el momento, por varias razones. Una es la ventana de atención muy corta de la mayoría de los generadores de vídeo con IA, que luchan por mantener la coherencia incluso en una toma única y corta, y mucho menos en una serie de tomas.
Otra es que las referencias consistentes al contenido de vídeo (como entornos explorables, que no deberían cambiar aleatoriamente si vuelves sobre tus pasos a través de ellos) sólo pueden lograrse en modelos de difusión mediante técnicas de personalización como la adaptación de rango bajo (LoRA), que limita la capacidades listas para usar de los modelos de cimentación.
Por lo tanto, la evolución del vídeo generativo parece estancarse a menos que se desarrollen nuevos enfoques para la continuidad narrativa.
Receta para la continuidad
Teniendo esto en cuenta, una nueva colaboración entre Estados Unidos y China ha propuesto el uso de vídeos instructivos de cocina como posible modelo para futuros sistemas de continuidad narrativa.
Haz clic para jugar. El proyecto VideoAuteur sistematiza el análisis de partes de un proceso de cocina, para producir un nuevo conjunto de datos finamente subtitulado y un método de orquestación para la generación de videos de cocina. Consulte el sitio fuente para obtener una mejor resolución. Fuente: https://videoauteur.github.io/
Noble Autor del vídeoel trabajo propone un proceso de dos etapas para generar videos instructivos de cocina utilizando estados coherentes que combinan fotogramas clave y subtítulos, logrando resultados de última generación en, ciertamente, un espacio con poca suscripción.
La página del proyecto de VideoAuteur también incluye una serie de vídeos bastante más llamativos que utilizan la misma técnica, como un avance propuesto para un crossover (inexistente) de Marvel/DC:
Haz clic para jugar. Dos superhéroes de universos alternativos se enfrentan en un falso tráiler de VideoAuteur. Consulte el sitio fuente para obtener una mejor resolución.
La página también presenta videos promocionales de estilo similar para una serie de animales de Netflix igualmente inexistente y un anuncio de automóvil Tesla.
Al desarrollar VideoAuteur, los autores experimentaron con diversas funciones de pérdida y otros enfoques novedosos. Para desarrollar un flujo de trabajo de generación de instrucciones de recetas, también seleccionaron cocinerogenel conjunto de datos más grande centrado en el ámbito de la cocina, con 200.000 videoclips con una duración media de 9,5 segundos.
Con un promedio de 768,3 palabras por video, CookGen es cómodamente el conjunto de datos de su tipo con más anotaciones. Se utilizaron diversos modelos de visión/lenguaje, entre otros enfoques, para garantizar que las descripciones fueran lo más detalladas, relevantes y precisas posible.
Se eligieron videos de cocina porque las instrucciones de cocina tienen una narrativa estructurada e inequívoca, lo que hace que la anotación y la evaluación sean una tarea más fácil. A excepción de los vídeos pornográficos (que probablemente entrarán en este espacio particular más temprano que tarde), es difícil pensar en cualquier otro género tan visual y narrativamente “formulario”.
Los autores afirman:
‘Nuestra propuesta de canalización autorregresiva de dos etapas, que incluye un director narrativo largo y una generación de video condicionada visualmente, demuestra mejoras prometedoras en la consistencia semántica y la fidelidad visual en videos narrativos largos generados.
A través de experimentos en nuestro conjunto de datos, observamos mejoras en la coherencia espacial y temporal en las secuencias de video.
“Esperamos que nuestro trabajo pueda facilitar futuras investigaciones sobre la generación de vídeos narrativos largos”.
El nuevo trabajo se titula VideoAuteur: Hacia una generación de vídeos narrativos largosy proviene de ocho autores de la Universidad Johns Hopkins, ByteDance y ByteDance Seed.
Curación de conjuntos de datos
Para desarrollar CookGen, que impulsa un sistema generativo de dos etapas para producir videos de cocina con IA, los autores utilizaron material de las colecciones YouCook y HowTo100M. Los autores comparan la escala de CookGen con conjuntos de datos anteriores centrados en el desarrollo narrativo en vídeo generativo, como el conjunto de datos de Los Picapiedra, el conjunto de datos de dibujos animados de Pororo, StoryGen, StoryStream de Tencent y VIST.
Comparación de imágenes y longitud de texto entre CookGen y los conjuntos de datos similares más poblados más cercanos. Fuente: https://arxiv.org/pdf/2501.06173
CookGen se centra en narrativas del mundo real, particularmente en actividades procedimentales como cocinar, y ofrece historias más claras y fáciles de anotar en comparación con conjuntos de datos de cómics basados en imágenes. Supera el conjunto de datos más grande existente, StoryStream, con 150 veces más fotogramas y descripciones textuales 5 veces más densas.
Los investigadores afinaron un modelo de subtítulos utilizando la metodología de LLaVA-NeXT como base. Las pseudoetiquetas de reconocimiento automático de voz (ASR) obtenidas para HowTo100M se utilizaron como “acciones” para cada vídeo y luego se refinaron mediante modelos de lenguaje grandes (LLM).
Por ejemplo, se utilizó ChatGPT-4o para producir un conjunto de datos de subtítulos y se le pidió que se centrara en las interacciones sujeto-objeto (como las manos manipulando utensilios y comida), los atributos de los objetos y la dinámica temporal.
Dado que es probable que los guiones ASR contengan imprecisiones y sean generalmente “ruidosos”, se utilizó Intersection-over-Union (IoU) como métrica para medir qué tan cerca se ajustaban los subtítulos a la sección del video que estaban abordando. Los autores señalan que esto fue crucial para la creación de coherencia narrativa.
Los clips seleccionados se evaluaron utilizando Fréchet Video Distance (FVD), que mide la disparidad entre ejemplos reales (mundo real) y ejemplos generados, con y sin fotogramas clave reales, llegando a un resultado performativo:
Usar FVD para evaluar la distancia entre los videos generados con los nuevos subtítulos, con y sin el uso de fotogramas clave capturados de los videos de muestra.
Además, los clips fueron calificados tanto por GPT-4o como por seis anotadores humanos, siguiendo la definición de “alucinación” de LLaVA-Hound (es decir, la capacidad de un modelo para inventar contenido espurio).
Los investigadores compararon la calidad de los subtítulos con la colección Qwen2-VL-72B, obteniendo una puntuación ligeramente mejor.
Comparación de FVD y puntuaciones de evaluación humana entre Qwen2-VL-72B y la colección de los autores.
Método
La fase generativa de VideoAuteur se divide entre la Directora de narrativa larga (LND) y el modelo de generación de video condicionado visualmente (VCVGM).
LND genera una secuencia de incrustaciones visuales o fotogramas clave que caracterizan el flujo narrativo, similar a los “puntos destacados esenciales”. La VCVGM genera videoclips basados en estas elecciones.
Esquema para el proceso de procesamiento de VideoAuteur. Long Narrative Video Director realiza selecciones apropiadas para alimentar el módulo generativo impulsado por Seed-X.
Los autores discuten ampliamente los diferentes méritos de una director imagen-texto entrelazado y un director de fotogramas clave centrado en el lenguaje, y concluimos que el primero es el enfoque más eficaz.
El director de imagen-texto entrelazado genera una secuencia entrelazando tokens de texto e incrustaciones visuales, utilizando un modelo autorregresivo para predecir el siguiente token, basado en el contexto combinado de texto e imágenes. Esto asegura una estrecha alineación entre las imágenes y el texto.
Por el contrario, el director de fotogramas clave centrado en el lenguaje los sintetiza utilizando un modelo de difusión condicionado por texto basado únicamente en subtítulos, sin incorporar incrustaciones visuales en el proceso de generación.
Los investigadores descubrieron que, si bien el método centrado en el lenguaje genera fotogramas clave visualmente atractivos, carece de coherencia entre fotogramas, argumentando que el método intercalado logra puntuaciones más altas en realismo y coherencia visual. También descubrieron que este método era más capaz de aprender un estilo visual realista a través del entrenamiento, aunque a veces con algunos elementos repetitivos o ruidosos.
Inusualmente, en una línea de investigación dominada por la incorporación de Stable Diffusion y Flux a los flujos de trabajo, los autores utilizaron el modelo básico LLM multimodal de parámetros SEED-X 7B de Tencent para su proceso generativo (aunque este modelo aprovecha el SDXL de Stability.ai). lanzamiento de Stable Diffusion para una parte limitada de su arquitectura).
Los autores afirman:
‘A diferencia del canal clásico de imagen a vídeo (I2V) que utiliza una imagen como fotograma inicial, nuestro enfoque aprovecha (latentes visuales en regresión) como condiciones continuas a lo largo de la (secuencia).
“Además, mejoramos la solidez y la calidad de los vídeos generados adaptando el modelo para manejar incrustaciones visuales ruidosas, ya que las latentes visuales regresadas pueden no ser perfectas debido a errores de regresión”.
Aunque los típicos canales generativos condicionados visualmente de este tipo a menudo utilizan fotogramas clave iniciales como punto de partida para la guía del modelo, VideoAuteur amplía este paradigma generando estados visuales de varias partes en un espacio latente semánticamente coherente, evitando el posible sesgo de basar únicamente la generación posterior. en ‘cuadros iniciales’.
Esquema para el uso de incrustaciones de estados visuales como método de acondicionamiento superior.
Pruebas
De acuerdo con los métodos de SeedStory, los investigadores utilizan SEED-X para aplicar el ajuste fino de LoRA en su conjunto de datos narrativos, describiendo enigmáticamente el resultado como un “modelo similar a Sora”, previamente entrenado en acoplamientos de video/texto a gran escala. y capaz de aceptar indicaciones y condiciones tanto visuales como de texto.
Se utilizaron 32.000 vídeos narrativos para el desarrollo del modelo, y 1.000 se reservaron como muestras de validación. Los videos se recortaron a 448 píxeles en el lado corto y luego en el centro a 448x448px.
Para la capacitación, la generación narrativa se evaluó principalmente en el conjunto de validación YouCook2. El conjunto Howto100M se utilizó para la evaluación de la calidad de los datos y también para la generación de imagen a vídeo.
Para la pérdida de acondicionamiento visual, los autores utilizaron la pérdida por difusión de DiT y un trabajo de 2024 basado en Stable Diffusion.
Para demostrar su afirmación de que el entrelazado es un enfoque superior, los autores enfrentaron a VideoAuteur con varios métodos que se basan únicamente en entradas basadas en texto: EMU-2, SEED-X, SDXL y FLUX.1-schnell (FLUX.1-s).
Ante un mensaje global, “Guía paso a paso para cocinar mapo tofu”, el director intercalado genera acciones, leyendas e incrustaciones de imágenes de forma secuencial para narrar el proceso. Las dos primeras filas muestran fotogramas clave decodificados de los espacios latentes de EMU-2 y SEED-X. Estas imágenes son realistas y consistentes, pero menos pulidas que las de modelos avanzados como SDXL y FLUX..
Los autores afirman:
‘El enfoque centrado en el lenguaje que utiliza modelos de texto a imagen produce fotogramas clave visualmente atractivos, pero adolece de una falta de coherencia entre fotogramas debido a la limitada información mutua. Por el contrario, el método de generación intercalada aprovecha las latentes visuales alineadas con el lenguaje, logrando un estilo visual realista a través del entrenamiento.
“Sin embargo, ocasionalmente genera imágenes con elementos repetitivos o ruidosos, ya que el modelo autorregresivo lucha por crear incrustaciones precisas en una sola pasada”.
La evaluación humana confirma aún más la afirmación de los autores sobre el mejor rendimiento del enfoque intercalado, ya que los métodos intercalados logran las puntuaciones más altas en una encuesta.
Comparación de enfoques de un estudio en humanos realizado para el artículo.
Sin embargo, observamos que los enfoques centrados en el lenguaje logran mejores resultados. estético montones. Los autores sostienen, sin embargo, que ésta no es la cuestión central en la generación de vídeos narrativos largos.
Haz clic para jugar. Segmentos generados para un vídeo sobre construcción de pizzas, por VideoAuteur.
Conclusión
La línea de investigación más popular con respecto a este desafío, es decir, la coherencia narrativa en la generación de vídeos de larga duración, se ocupa de imágenes individuales. Proyectos de este tipo incluyen DreamStory, StoryDiffusion, TheatreGen y ConsiStory de NVIDIA.
En cierto sentido, VideoAuteur también entra en esta categoría “estática”, ya que utiliza imágenes semilla a partir de las cuales se generan secciones de clip. Sin embargo, la intercalación de vídeo y contenido semántico acerca el proceso un paso más a una tubería práctica.
Publicado por primera vez el jueves 16 de enero de 2025.