Mejor video de IA generativo por tramas arrastrando durante el entrenamiento

-

spot_img

Un nuevo documento esta semana en ARXIV aborda un problema que cualquiera que haya adoptado el video Hunyuan o los generadores de video WAN 2.1 AI ya se habrán encontrado: aberraciones temporalesdonde el proceso generativo tiende a acelerar abruptamente, combinar, omitir o arruinar los momentos cruciales en un video generado:

Haga clic para jugar. Algunos de los problemas técnicos que se están volviendo familiarizados para los usuarios de la nueva ola de sistemas de video generativos, destacados en el nuevo artículo. A la derecha, el efecto de mejora del nuevo enfoque de flujo de flujo. Fuente: https://haroldchen19.github.io/fluxflow/

El video de arriba presenta extractos de videos de prueba de ejemplo en el sitio del proyecto (Advertido: bastante caótico) para el documento. Podemos ver varios problemas cada vez más familiares remediados por el método de los autores (que se muestra a la derecha en el video), que es efectivamente una técnica de preprocesamiento del conjunto de datos aplicable a cualquier arquitectura de video generativa.

En el primer ejemplo, con ‘dos ​​niños jugando con una pelota’, generado por Cogvideox, vemos (a la izquierda en el video de compilación anterior y en el ejemplo específico a continuación) que la generación nativa salta rápidamente a través de varios microfirementos esenciales, acelerando la actividad de los niños hasta un lanzamiento de ‘dibujos animados’. Por el contrario, el mismo conjunto de datos y el método arrojan mejores resultados con la nueva técnica de preprocesamiento, denominado Flujo de flujo (A la derecha de la imagen en el video a continuación):

Haga clic para jugar.

En el segundo ejemplo (usando Nova-0.6b), vemos que una moción central que involucra a un gato ha sido corrompida de alguna manera o menos muestreada en la etapa de entrenamiento, hasta el punto de que el sistema generativo se ‘paraliza’ y no puede hacer que el sujeto se mueva:

Haga clic para jugar.

Este síndrome, donde la moción o sujeto se ‘atasca’, es uno de los errores más frecuentemente informados de HV y WAN, en los diversos grupos de síntesis de imagen y video.

Algunos de estos problemas están relacionados con los problemas de subtítulos en el conjunto de datos de origen, que echamos un vistazo esta semana; Pero los autores del nuevo trabajo enfocan sus esfuerzos en las cualidades temporales de los datos de capacitación, y hacen un argumento convincente de que abordar los desafíos desde esa perspectiva puede generar resultados útiles.

Como se menciona en el artículo anterior sobre subtitulación de video, ciertos deportes son particularmente difíciles de destilarse en momentos clave, lo que significa que los eventos críticos (como un slam-dunk) no reciben la atención que necesitan en el tiempo de entrenamiento:

Haga clic para jugar.

En el ejemplo anterior, el sistema generativo no sabe cómo llegar a la siguiente etapa de movimiento, y transita ilógicamente de una pose a la siguiente, cambiando la actitud y la geometría del jugador en el proceso.

Estos son grandes movimientos que se perdieron en el entrenamiento, pero igualmente vulnerables son movimientos mucho más pequeños pero fundamentales, como el aleteo de las alas de una mariposa:

Leer  Transformando el rendimiento de LLM: cómo el marco de evaluación automatizado de AWS lidera el camino

Haga clic para jugar.

A diferencia del slam-dunk, el aleteo de las alas no es un evento “raro”, sino un evento persistente y monótono. Sin embargo, su consistencia se pierde en el proceso de muestreo, ya que el movimiento es tan rápido que es muy difícil de establecer temporalmente.

Estos no son problemas particularmente nuevos, pero están recibiendo mayor atención ahora que hay potentes modelos de video generativos disponibles para los entusiastas de la instalación local y la generación gratuita.

Las comunidades de Reddit y Discord han tratado inicialmente estos problemas como “relacionados con el usuario”. Esta es una presunción comprensible, ya que los sistemas en cuestión son muy nuevos y mínimamente documentados. Por lo tanto, varios expertos han sugerido remedios diversos (y no siempre efectivos) para algunos de los problemas técnicos documentados aquí, como alterar la configuración en varios componentes de diversos tipos de flujos de trabajo cómodos para Video Hunyuan (HV) y WAN 2.1.

En algunos casos, en lugar de producir un movimiento rápido, tanto HV como WAN producirán lento movimiento. Las sugerencias de Reddit y ChatGPT (que aprovechan principalmente Reddit) incluyen cambiar el número de cuadros en la generación solicitada, o reducir radicalmente la velocidad de cuadro*.

Todo esto es algo desesperado; La verdad emergente es que aún no sabemos la causa exacta o el remedio exacto para estos temas; Claramente, atormentar la configuración de generación para trabajar a su alrededor (particularmente cuando esto degrada la calidad de la salida, por ejemplo, con una tasa de FPS demasiado baja) es solo una parada corta, y es bueno ver que la escena de la investigación aborda los problemas emergentes tan rápidamente.

Entonces, además de la mirada de esta semana a cómo el subtítulos afecta el entrenamiento, echemos un vistazo al nuevo artículo sobre la regularización temporal y qué mejoras podría ofrecer la escena de video generativa actual.

La idea central es bastante simple y leve, y no es peor para eso; No obstante, el papel está algo acolchado para alcanzar las ocho páginas prescritas, y saltaremos sobre este relleno según sea necesario.

El pez en la generación nativa del marco Videocrafter es estático, mientras que la versión alterada de flujo de flujo captura los cambios necesarios. Fuente: https://arxiv.org/pdf/2503.15417

El nuevo trabajo se titula La regularización temporal hace que su generador de video sea más fuertey proviene de ocho investigadores de Everlyn AI, Universidad de Ciencia y Tecnología de Hong Kong (HKUST), la Universidad de Florida Central (UCF) y la Universidad de Hong Kong (HKU).

(Al momento de escribir, hay algunos problemas con el sitio del proyecto adjunto del artículo)

Flujo de flujo

La idea central detrás Flujo de flujoel nuevo esquema de pre-entrenamiento de los autores es superar los problemas generalizados parpadeo y inconsistencia temporal Al barajar bloques y grupos de bloques en las órdenes de marco temporal, ya que los datos de origen están expuestos al proceso de capacitación:

La idea central detrás de FluxFlow es mover bloques y grupos de bloques a posiciones inesperadas y no temporales, como una forma de aumento de datos.

El documento explica:

Leer  El generador de imágenes de Grok causa una inmensa controversia, pero ¿qué tan peligroso es realmente?

‘(Artefactos) se derivan de una limitación fundamental: a pesar de aprovechar los conjuntos de datos a gran escala, los modelos actuales a menudo dependen de patrones temporales simplificados en los datos de entrenamiento (por ejemplo, direcciones fijas de caminar o transiciones de cuadros repetitivas) en lugar de aprender dinámicas temporales diversas y plausibles.

“Este problema se ve exacerbado por la falta de un aumento temporal explícito durante el entrenamiento, dejando modelos propensos a sobreajustar a correlaciones temporales espurias (por ejemplo,” el marco #5 debe seguir #4 “) en lugar de generalizar en diversos escenarios de movimiento”.

La mayoría de los modelos de generación de videos, explican los autores, todavía piden prestado demasiado imagen Síntesis, centrándose en la fidelidad espacial mientras ignora en gran medida el eje temporal. Aunque las técnicas como el cultivo, el volteo y la fluctuación de color han ayudado a mejorar la calidad de la imagen estática, no son soluciones adecuadas cuando se aplican a los videos, donde la ilusión de movimiento depende de transiciones consistentes a través de los marcos.

Los problemas resultantes incluyen texturas parpadeantes, cortes discordantes entre los marcos y los patrones de movimiento repetitivos o demasiado simplistas.

Haga clic para jugar.

El documento argumenta que, aunque algunos modelos, incluida la difusión de video estable y el Llamagen, compensan con arquitecturas cada vez más complejas o limitaciones de ingeniería, tienen un costo en términos de cómputo y flexibilidad.

Dado que el aumento de datos temporales ya ha demostrado ser útil en video comprensión Tareas (en marcos como Finecliper, Sefar y SVFormer) es sorprendente, afirman los autores, que esta táctica rara vez se aplica en un contexto generativo.

Comportamiento disruptivo

Los investigadores sostienen que las interrupciones simples y estructuradas en el orden temporal durante los modelos de capacitación ayudan a generalizar mejor a un movimiento realista y diverso:

‘Al entrenar en secuencias desordenadas, el generador aprende a recuperar trayectorias plausibles, regularizando efectivamente la entropía temporal. Fluxflow une la brecha entre el aumento temporal discriminativo y generativo, ofreciendo una solución de mejora de plug-and-play para la generación de videos temporalmente plausible al tiempo que mejora en general (calidad).

“A diferencia de los métodos existentes que introducen cambios arquitectónicos o dependen del postprocesamiento, FluxFlow funciona directamente a nivel de datos, introduciendo perturbaciones temporales controladas durante la capacitación”.

Haga clic para jugar.

Las perturbaciones a nivel de marco, los autores, introducen interrupciones de grano fino dentro de una secuencia. Este tipo de interrupción no es diferente al aumento de enmascaramiento, donde las secciones de datos se bloquean aleatoriamente, para evitar que el sistema se sobreajuste en los puntos de datos y fomente una mejor generalización.

Pruebas

Aunque la idea central aquí no corre a un artículo de larga duración, debido a su simplicidad, sin embargo, hay una sección de prueba que podemos echar un vistazo.

Los autores probaron para cuatro consultas relacionadas con una mejor calidad temporal mientras mantienen la fidelidad espacial; capacidad de aprender dinámica de flujo de movimiento/flujo óptico; mantenimiento de la calidad temporal en la generación de extraterm; y sensibilidad a los hiperparámetros clave.

Los investigadores aplicaron FluxFlow a tres arquitecturas generativas: basadas en U-Net, en forma de VideoCRafter2; Basado en DIT, en forma de cogvideox-2b; y basado en AR, en forma de Nova-0.6b.

Leer  Cómo los agentes de IA están transformando el sector educativo: una mirada al aprendizaje de Kira y más allá

Para una comparación justa, ajustaron los modelos base de las arquitecturas con flujo de flujo como una fase de entrenamiento adicional, para una época, en el conjunto de datos OpenVIDHD-0.4M.

Los modelos fueron evaluados contra dos puntos de referencia populares: UCF-101; y Vbench.

Para UCF, se utilizaron las métricas de distancia de video (FVD) y puntaje de inicio (IS). Para VBench, los investigadores se concentraron en la calidad temporal, la calidad del marco y la calidad general.

Evaluación inicial cuantitativa del marco de flujo de flujo. “+ Original” indica entrenamiento sin flujo de flujo, mientras que “+ num × 1” muestra diferentes configuraciones de marco de flujo de flujo. Los mejores resultados están sombreados; El segundo mejor se subrayan para cada modelo.

Al comentar sobre estos resultados, los autores indican:

‘Tanto el bloqueo de flujo de flujo como el bloque de flujo de flujo mejoran significativamente la calidad temporal, como lo demuestran las métricas en las pestañas. 1, 2 (es decir, FVD, sujeto, parpadeo, movimiento y dinámico) y resultados cualitativos en (imagen a continuación).

‘Por ejemplo, el movimiento del automóvil a la deriva en VC2, el gato persiguiendo su cola en Nova y el surfista que monta una ola en CVX se vuelve notablemente más fluida con flujo de flujo. Es importante destacar que estas mejoras temporales se logran sin sacrificar la fidelidad espacial, como lo demuestran los detalles agudos de las salpicaduras de agua, los senderos de humo y las texturas de las olas, junto con las métricas de fidelidad espacial y general.

A continuación vemos selecciones de los resultados cualitativos a los que se refieren los autores (consulte el documento original para obtener resultados completos y una mejor resolución):

Selecciones de los resultados cualitativos.

El documento sugiere que si bien las perturbaciones de nivel de marco y a nivel de bloque mejoran la calidad temporal, los métodos a nivel de marco tienden a funcionar mejor. Esto se atribuye a su granularidad más fina, lo que permite ajustes temporales más precisos. Las perturbaciones a nivel de bloque, por el contrario, pueden introducir ruido debido a los patrones espaciales y temporales estrictamente acoplados dentro de los bloques, lo que reduce su efectividad.

Conclusión

Este documento, junto con la colaboración de subtítulos de Bytedance-Tsinghua lanzado esta semana, me ha dejado claro que las deficiencias aparentes en la nueva generación de modelos de video generativos pueden no resultar de errores del usuario, malas errores institucionales o limitaciones de financiamiento, sino de un enfoque de investigación que ha priorizado comprensiblemente desafíos más urgentes, como la coherencia temporal y la consistencia, a lo largo de estas preocupaciones menores.

Hasta hace poco, los resultados de los sistemas de video generativos libremente disponibles y descargable estaban tan comprometidos que no surgió un gran lugar de esfuerzo de la comunidad entusiasta para corregir los problemas (no menos importante porque los problemas eran fundamentales y no solucionables trivialmente).

Ahora que estamos mucho más cerca de la edad de larga data de la producción de video fotorrealista puramente generada por IA, está claro que tanto la investigación como las comunidades casuales están tomando un interés más profundo y productivo en resolver los problemas restantes; Con suerte, estos no son obstáculos intratables.

* La velocidad de fotogramas nativa de WAN es un insignificante 16FPS, y en respuesta a mis propios problemas, noto que los foros han sugerido reducir la velocidad de cuadro tan baja como 12 fps, y luego usar marcos de flujo u otros sistemas de re-flujo basados ​​en AI para interpolar las brechas entre un número tan escaso de marcos.

Publicado por primera vez el viernes 21 de marzo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares