El camino a la mejor edición de video basada en la IA

-

spot_img

El sector de investigación de síntesis de video/imagen genera regularmente las arquitecturas de edición de video*, y en los últimos nueve meses, las salidas de esta naturaleza se han vuelto aún más frecuentes. Dicho esto, la mayoría de ellos representan solo avances incrementales en el estado del arte, ya que los desafíos centrales son sustanciales.

Sin embargo, una nueva colaboración entre China y Japón esta semana ha producido algunos ejemplos que merecen un examen más detallado del enfoque, incluso si no es necesariamente un trabajo histórico.

En el clip de video a continuación (del sitio del proyecto asociado del artículo, que, se advierte, puede imponer su navegador), vemos que si bien las capacidades de profundidad del sistema son inexistentes en la configuración actual, el sistema hace un buen trabajo de plausiblemente y significativamente la identidad de la mujer joven en la imagen, basada en una máscara de video (abajo a la izquierda):::::::::::::::::::::::::

Haga clic para jugar. Basado en la máscara de segmentación semántica visualizada en la parte inferior izquierda, la mujer original (superior izquierda) se transforma en una identidad notablemente diferente, a pesar de que este proceso no logra el intercambio de identidad indicado en el aviso. Fuente: https://yxbian23.github.io/project/video-painter/ (Tenga en cuenta que al momento de la escritura, este sitio de reproducción automática y rellenos de video estaba inclinado a bloquear mi navegador). Consulte los videos de origen, si puede acceder a ellos, para obtener una mejor resolución y detalle, o consulte los ejemplos en el video de descripción general del proyecto en https://www.youtube.com/watch?v=HyzNFSD3A0SS

La edición de este tipo basada en máscaras está bien establecida en los modelos de difusión latente estáticos, utilizando herramientas como Controlnet. Sin embargo, mantener la consistencia de fondo en el video es mucho más desafiante, incluso cuando las áreas enmascaradas proporcionan al modelo flexibilidad creativa, como se muestra a continuación:

Haga clic para jugar. Un cambio de especie, con el nuevo método de video en video. Consulte los videos de origen, si puede acceder a ellos, para obtener una mejor resolución y detalle, o consulte los ejemplos en el video de descripción general del proyecto en https://www.youtube.com/watch?v=HyzNFSD3A0SS

Los autores del nuevo trabajo consideran su método con respecto a la propia arquitectura de pincel de Tencent (que cubrimos el año pasado), como a Controlnet, los cuales tratan de una arquitectura de doble rama capaz de aislar el primer plano y la generación de fondo.

Sin embargo, la aplicación de este método directamente al enfoque de transformadores de difusión (DIT) muy productivos propuesto por SORA de Opensei trae desafíos particulares, como señalan los autores “

‘(Directamente) la aplicación (la arquitectura de pincel y controlnet) a los dits de video presenta varios desafíos: (en primer lugar, dado) la base generativa de video de video y el tamaño de modelo pesado, replicando la columna vertebral dit de video completa/medio gigante como el codificador de contexto sería innecesario y computacionalmente.

‘(En segundo lugar, a diferencia de) la rama de control convolucional puro de Brushnet, los tokens de DIT en regiones enmascaradas contienen inherentemente información de fondo debido a la atención global, lo que complica la distinción entre regiones enmascaradas y sin mascar en las troncos DIT.

“(Finalmente) Controlnet carece de inyección de características en todas las capas, obstaculizando el denso control de fondo para las tareas de entrada”.

Por lo tanto, los investigadores han desarrollado un enfoque plug-and-play en forma de un marco de doble rama titulado Videopeinter.

VideoPainter ofrece un marco de interpago de video de doble rama que mejora los dits previamente capacitados con un codificador de contexto ligero. Este codificador representa solo el 6% de los parámetros de la columna vertebral, que los autores afirman hace que el enfoque sea más eficiente que los métodos convencionales.

El modelo propone tres innovaciones clave: un codificador de contexto simplificado de dos capas para una orientación de fondo eficiente; un sistema de integración de características selectivas de máscara que separa los tokens enmascarados y desenmascarados; y una técnica de remuestreo de ID de región interna que mantiene la consistencia de identidad en secuencias de video largas.

Leer  Más allá de los puntos de referencia: por qué la evaluación de IA necesita una verificación de la realidad

Al congelar tanto el codificador DIT y del contexto previamente capacitado al introducir un adaptador de identificación, el video del video se asegura de que la interfirión de la región de los clips anteriores persista a lo largo de un video, reduciendo los parpadeos e inconsistencias.

El marco también está diseñado para la compatibilidad con plug-and-play, lo que permite a los usuarios integrarlo sin problemas en los flujos de trabajo de generación y edición de videos existentes.

Para admitir el trabajo, que utiliza COGVIDEO-5B-I2V como su motor generativo, los autores seleccionaron lo que indican es el conjunto de datos de entrada de video más grande hasta la fecha. Noble Vpdatala colección consta de más de 390,000 clips, para una duración total de video de más de 886 horas. También desarrollaron un marco de evaluación comparativa relacionado titulado Vpbench.

Haga clic para jugar. De los ejemplos del sitio web del proyecto, vemos las capacidades de segmentación impulsadas por la colección VPData y el conjunto de pruebas VPBench. Consulte los videos de origen, si puede acceder a ellos, para obtener una mejor resolución y detalle, o consulte los ejemplos en el video de descripción general del proyecto en https://www.youtube.com/watch?v=HyzNFSD3A0SS

El nuevo trabajo se titula Videopeinter: Inpaña y edición de videos de cualquier longitud con control de contexto plug-and-playy proviene de siete autores en el Laboratorio de Arc de Tencent, la Universidad China de Hong Kong, la Universidad de Tokio y la Universidad de Macao.

Además del sitio del proyecto mencionado anteriormente, los autores también han lanzado una descripción general de YouTube más accesible, así como una página de abrazadera.

Método

La tubería de recopilación de datos para VPDATA consiste en recopilación, anotación, división, selección y subtítulos:

Esquema para la tubería de construcción del conjunto de datos. Fuente: https://arxiv.org/pdf/2503.05639

Las colecciones de origen utilizadas para esta compilación provienen de Videvo y Pexels, con un recorrido inicial de alrededor de 450,000 videos obtenidos.

Múltiples bibliotecas y métodos contribuyentes comprendieron la etapa de preprocesamiento: el marco de reconocimiento de cualquier cosa se usó para proporcionar un etiquetado de video abierto, encargado de identificar objetos primarios; Se usó Dino de tierra para la detección de cajas delimitadoras alrededor de los objetos identificados; y el marco segmento de cualquier cosa modelo 2 (SAM 2) se usó para refinar estas selecciones gruesas en segmentos de máscara de alta calidad.

Para gestionar las transiciones de la escena y garantizar la consistencia en la interpago de video, el video del video usa PysCededetect para identificar y segmentar clips en puntos de interrupción naturales, evitando los cambios disruptivos a menudo causados ​​por el seguimiento del mismo objeto desde múltiples ángulos. Los clips se dividieron en intervalos de 10 segundos, con algo más corto de seis segundos descartados.

Para la selección de datos, se aplicaron tres criterios de filtrado: calidad estéticaevaluado con el predictor de la puntuación de Laion-Estética; fuerza del movimientomedido a través del flujo óptico usando balsa; y Seguridad de contenidoVerificado a través del controlador de seguridad de la difusión estable.

Una limitación importante en los conjuntos de datos de segmentación de video existentes es la falta de anotaciones textuales detalladas, que son cruciales para guiar modelos generativos:

Los investigadores enfatizan la falta de video en colecciones comparables.

Por lo tanto, el proceso de curación de datos del video del videointer incorpora diversos modelos de lenguaje de visión líder, incluidos COGVLM2 y CHAT GPT-4O para generar subtítulos basados ​​en el fotograma clave y descripciones detalladas de regiones enmascaradas.

VideoPainter mejora los dits previamente capacitados mediante la introducción de un codificador de contexto liviano personalizado que separa la extracción de contexto de fondo de la generación de primer plano, visto en la parte superior derecha del esquema ilustrativo a continuación:

Esquema conceptual para videopinter. El codificador de contexto del Videopeinter procesa latentes ruidosos, máscaras muestreadas y latentes de video enmascarados a través de VAE, integrando solo tokens de fondo en el DIT previamente capacitado para evitar la ambigüedad. El adaptador de volver a muestrear ID garantiza la consistencia de la identidad al concatenar los tokens de la región enmascarada durante el entrenamiento y volver a muestrearlos de clips anteriores durante la inferencia.

En lugar de cargar la columna vertebral con un procesamiento redundante, este codificador opera con una entrada simplificada: una combinación de ruidoso video latente latente (extraído a través de un autoencoder variacional o VAE), y máscaras muestreadas.

Leer  De tweets a llamadas: cómo la IA está transformando el estudio acústico de las aves migratorias

El ruidoso latente proporciona un contexto de generación, y el video latente enmascarado se alinea con la distribución existente del DIT, con el objetivo de mejorar la compatibilidad.

En lugar de duplicar grandes secciones del modelo, que el estado de los autores ha ocurrido en trabajos anteriores, VideoPainter integra solo las dos primeras capas del DIT. Estas características extraídas se reintroducen en el DIT congelado de una manera estructurada y de grupo, las características de la capa temprana informan la mitad inicial del modelo, mientras que las características posteriores refinan la segunda mitad.

Además, un mecanismo selectivo de token asegura que solo se reintegran las características relevantes para el fondo, lo que evita la confusión entre las regiones enmascaradas y desenmascaradas. Este enfoque, según los autores, permite que el videoprainter mantenga una alta fidelidad en la preservación de los antecedentes al tiempo que mejora la eficiencia de entrada de primer plano.

Los autores señalan que el método que proponen admite diversos métodos de estilización, incluida la adaptación de bajo rango (LORA) más popular.

Datos y pruebas

Videopeinter fue entrenado utilizando el modelo COGVideo-5B-I2V, junto con su equivalente de texto a video. El Corpus de VPData curado se usó a 480x720px, a una velocidad de aprendizaje de 1 × 10-5.

El adaptador de reamitular de identificación fue entrenado para 2,000 pasos, y el codificador de contexto para 80,000 pasos, ambos usando el Optimizer Adamw. El entrenamiento tuvo lugar en dos etapas utilizando un formidable GPU 64 NVIDIA V100 (aunque el documento no especifica si estos tenían 16 GB o 32 GB de VRAM).

Para la evaluación comparativa, Davis se usó para máscaras aleatorias, y la propia BBENCH VP de los autores para máscaras basadas en segmentación.

El conjunto de datos VPBench presenta objetos, animales, humanos, paisajes y diversas tareas, y cubre cuatro acciones: agregar, eliminar, cambiary intercambio. La colección presenta 45 videos de 6 segundos, y nueve videos que duran, en promedio, 30 segundos.

Se utilizaron ocho métricas para el proceso. Para la preservación de la región enmascarada, los autores usaron una relación señal / ruido máxima (PSNR); Métricas de similitud perceptiva aprendida (LPIP); Índice de similitud estructural (SSIM); y error absoluto medio (MAE).

Para la alineación del texto, los investigadores utilizaron la similitud de clip tanto para evaluar la distancia semántica entre el subtítulo del clip y su contenido percibido real, y también para evaluar la precisión de las regiones enmascaradas.

Para evaluar la calidad general de los videos de salida, se utilizó la distancia de video de Fréchet (FVD).

Para una ronda de comparación cuantitativa para la interpago de video, los autores establecen su sistema contra los enfoques anteriores del propintor, Cococo y COG-INP (COGVideox). La prueba consistió en la invención de la primera trama de un clip utilizando modelos de entrada de imagen, y luego utilizando una columna vertebral de imagen a video (I2V) para propagar los resultados en una operación de mezcla latente, de acuerdo con un método propuesto por un artículo 2023 de Israel.

Dado que el sitio web del proyecto no es del todo funcional al momento de escribir, y dado que el video de YouTube asociado del proyecto puede no presentar la totalidad de ejemplos rellenos en el sitio del proyecto, es bastante difícil ubicar ejemplos de video que son muy específicos de los resultados descritos en el documento. Por lo tanto, mostraremos resultados estáticos parciales presentados en el documento y cerraremos el artículo con algunos ejemplos de video adicionales que logramos extraer del sitio del proyecto.

Comparación cuantitativa de videopinter vs. propinter, cococo y cog-inp en vpbench (máscaras de segmentación) y Davis (máscaras aleatorias). Las métricas cubren la preservación de la región enmascarada, la alineación del texto y la calidad del video. Rojo = mejor, azul = segundo mejor.

De estos resultados cualitativos, los autores comentan:

Leer  Cómo la IA de Google está desbloqueando los secretos de la comunicación de delfines

‘En el VPBench basado en la segmentación, el propintor y el Cococo exhiben el peor rendimiento en la mayoría de las métricas, principalmente debido a la incapacidad de intervenir objetos totalmente enmascarados y la dificultad de la arquitectura de una sola espalda para equilibrar la preservación de fondo competitiva y la generación de primer plano, respectivamente.

‘En el punto de referencia de máscara aleatoria Davis, el propintor muestra una mejora al aprovechar la información de fondo parcial. Sin embargo, VideoPainter logra un rendimiento óptimo a través de la segmentación (estándar y larga longitud) y máscaras aleatorias a través de su arquitectura de doble rama que desacopla efectivamente la preservación de fondo y la generación de primer plano.

Luego, los autores presentan ejemplos estáticos de pruebas cualitativas, de las cuales presentamos una selección a continuación. En todos los casos, remitimos al lector al sitio del proyecto y al video de YouTube para una mejor resolución.

Una comparación con los métodos de invención en marcos anteriores.

Haga clic para jugar. Ejemplos concatenados por nosotros de los videos de ‘resultados’ en el sitio del proyecto.

En cuanto a esta ronda cualitativa para la interpago de video, los autores comentan:

‘Videopeinter muestra consistentemente resultados excepcionales en la coherencia del video, la calidad y la alineación con la leyenda del texto. En particular, el propintor no puede generar objetos completamente enmascarados porque solo depende de la propagación de píxeles de fondo en lugar de generar.

‘Si bien COCOCO demuestra una funcionalidad básica, no puede mantener una identificación constante en las regiones no pintadas (apariciones inconsistentes de embarcaciones y cambios abruptos en el terreno) debido a su arquitectura de una sola espalda que intenta equilibrar la preservación de fondo y la generación de primer plano.

‘COG-INP logra resultados de entrada básicos; Sin embargo, la incapacidad de su operación de combinación para detectar límites de máscara conduce a artefactos significativos.

“Además, Videopeinter puede generar videos coherentes superiores a un minuto mientras se mantiene la consistencia de ID a través de nuestro remuestreo de identificación”.

Los investigadores también probaron la capacidad del video del video para aumentar los subtítulos y obtener mejores resultados por este método, colocando el sistema contra UNIEDIT, DITCTRL y Revideo.

Resultados de edición de video contra tres enfoques anteriores.

Los autores comentan:

‘Para videos estándar y largo en VPBench, VideoPainter logra un rendimiento superior, incluso superando el revideo de extremo a extremo. Este éxito puede atribuirse a su arquitectura de doble rama, que garantiza una excelente preservación de fondo y capacidades de generación de primer plano, manteniendo una alta fidelidad en regiones no editadas al tiempo que garantiza regiones editadas estrechamente alineadas con las instrucciones de edición, complementadas con la identificación de región incipiente que resume que mantiene la consistencia de identificación en video largo.

Aunque el documento presenta ejemplos cualitativos estáticos para esta métrica, son descuidados y, en cambio, remitimos al lector a los diversos ejemplos repartidos en los diversos videos publicados para este proyecto.

Finalmente, se realizó un estudio en humanos, donde se les pidió a treinta usuarios que evaluaran 50 generaciones seleccionadas al azar del VPBench y los subconjuntos de edición. Los ejemplos resaltaron la preservación de fondo, la alineación a la solicitud y la calidad general de video.

Resultados del estudio de usuario para el videopinter.

Los autores afirman:

“Videopeinter superó significativamente las líneas de base existentes, logrando tasas de preferencias más altas en todos los criterios de evaluación en ambas tareas”.

Sin embargo, admiten que la calidad de las generaciones del video del video depende del modelo base, lo que puede luchar con un movimiento y física complejos; Y observan que también funciona mal con máscaras de baja calidad o subtítulos desalineados.

Conclusión

Videopeinter parece una adición valiosa a la literatura. Típico de las soluciones recientes, sin embargo, tiene considerables demandas de cálculo. Además, muchos de los ejemplos elegidos para la presentación en el sitio del proyecto quedan muy lejos de los mejores ejemplos; Por lo tanto, sería interesante ver este marco enfrentado con entradas futuras y una gama más amplia de enfoques anteriores.

* Vale la pena mencionar que ‘edición de video’ en este sentido no significa ‘ensamblar diversos clips en una secuencia’, que es el significado tradicional de este término; sino más bien cambiando directamente o de alguna manera modificando el contenido interno de los videoclips existentes, utilizando técnicas de aprendizaje automático

Publicado por primera vez el lunes 10 de marzo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares