Un avance notable en el video de IA impulsado por los humanos

-

spot_img

Nota: La página del proyecto para este trabajo incluye 33 videos de alta capacidad de alta resistencia por un total de la mitad de un gigabyte, que desestabilizó mi sistema en la carga. Por esta razón, no lo vincularé directamente. Los lectores pueden encontrar la URL en el resumen del artículo o PDF si lo desean.

Uno de los objetivos principales en la investigación actual de síntesis de video es generar un rendimiento de video completo impulsado por la IA a partir de una sola imagen. Esta semana, un nuevo artículo de la creación inteligente de Bytedance describió lo que puede ser el sistema más integral de este tipo hasta ahora, capaz de producir animaciones completas y semibodas que combinan detalles faciales expresivos con un movimiento preciso a gran escala, al tiempo que logran una consistencia de identidad mejorada, un área donde incluso los sistemas comerciales líderes a menudo se quedan cortos.

En el ejemplo a continuación, vemos una actuación impulsada por un actor (arriba a la izquierda) y derivado de una sola imagen (arriba a la derecha), que proporciona una representación notablemente flexible y hábil, sin ninguno de los problemas habituales en torno a crear grandes movimientos o ‘adivinar’ sobre áreas oclusidas (es decir, partes de ropa y ángulos faciales que deben ser inferidos o inventados porque no son visibles en la foto de origen sole):: foto de origen sole):: Foto de origen):: Foto de origen: Foto de origen)::

Contenido de audio. Haga clic para jugar. Una actuación nace de dos fuentes, incluida la sincronización de labios, que normalmente es la reserva de sistemas auxiliares dedicados. Esta es una versión reducida del sitio fuente (ver nota al comienzo del artículo: se aplica a todos los demás videos integrados aquí).

Aunque podemos ver algunos desafíos residuales con respecto a la persistencia de la identidad a medida que cada clip procede, este es el primer sistema que he visto que sobresale en general (aunque no siempre) manteniendo ID durante un período sostenido sin el uso de LORAS:

Contenido de audio. Haga clic para jugar. Otros ejemplos del proyecto DreamActor.

El nuevo sistema, titulado Dreamactorutiliza un sistema de control híbrido de tres partes que brinda atención dedicada a la expresión facial, la rotación de la cabeza y el diseño del esqueleto central, acomodando así las actuaciones impulsadas por la IA donde ni el aspecto facial ni el cuerpo sufren a expensas del otro, una capacidad rara y posiblemente desconocida entre sistemas similares.

A continuación vemos una de estas facetas, rotación de la cabezaen acción. La bola de color en la esquina de cada miniatura hacia la derecha indica un tipo de cardán virtual que define la orientación de la cabeza independientemente del movimiento y la expresión facial, que aquí es impulsado por un actor (abajo a la izquierda).

Haga clic para jugar. La bola multicolor visualizada aquí representa el eje de rotación de la cabeza del avatar, mientras que la expresión funciona con un módulo separado e informada por la actuación de un actor (visto aquí abajo a la izquierda).

Una de las funcionalidades más interesantes del proyecto, que ni siquiera se incluye correctamente en las pruebas del documento, es su capacidad para derivar el movimiento de sincronización de labios directamente del audio, una capacidad que funciona inusualmente bien incluso sin un videamento actor impulsor.

Los investigadores han adquirido a los mejores titulares en esta búsqueda, incluido el tan alaborado acto de pista y viva portait, y informan que DreamActor pudo lograr mejores resultados cuantitativos.

Dado que los investigadores pueden establecer sus propios criterios, los resultados cuantitativos no son necesariamente un estándar empírico; Pero las pruebas cualitativas que lo acompañan parecen respaldar las conclusiones de los autores.

Desafortunadamente, este sistema no está destinado a la liberación pública, y el único valor que la comunidad puede derivar del trabajo es reproducir potencialmente las metodologías descritas en el documento (como se hizo con un efecto notable para el Google Dreambooth igualmente cerrado en 2022).

El documento indica*:

‘La animación de la imagen humana tiene posibles riesgos sociales, como ser mal usado para hacer videos falsos. La tecnología propuesta podría usarse para crear videos falsos de personas, pero las herramientas de detección existentes (demamba, latente) pueden detectar estas falsificaciones.

‘Para reducir estos riesgos, son necesarias reglas éticas claras y pautas de uso responsables. Restringiremos estrictamente el acceso a nuestros modelos y códigos centrales para evitar el mal uso.

Naturalmente, las consideraciones éticas de este tipo son convenientes desde un punto de vista comercial, ya que proporciona una justificación para el acceso de API solo al modelo, que luego se puede monetizar. Bytedance ya ha hecho esto una vez en 2025, haciendo que el omnihumano tan elaborado esté disponible para los créditos pagados en el sitio web de Dreamina. Por lo tanto, dado que DreamActor es posiblemente un producto aún más fuerte, este parece el resultado probable. Lo que queda por ver es la medida en que sus principios, hasta donde se explican en el documento, pueden ayudar a la comunidad de código abierto.

Leer  ¿Quién ganará la carrera de la IA en 2024? La carrera de las grandes tecnológicas hacia la AGI

El nuevo artículo se titula Dreamactor-M1: animación de imagen humana holística, expresiva y robusta con guía híbriday proviene de seis investigadores de Bytedance.

Método

El sistema DreamActor propuesto en el documento tiene como objetivo generar animación humana a partir de una imagen de referencia y un video de conducción, utilizando un marco de transformador de difusión (DIT) adaptado para el espacio latente (aparentemente algún sabor de difusión estable, aunque el documento cita solo la publicación de lanzamiento de liso 2022).

En lugar de confiar en módulos externos para manejar el acondicionamiento de referencia, los autores fusionan las características de apariencia y movimiento directamente dentro de la columna vertebral DIT, lo que permite la interacción a través del espacio y el tiempo a través de la atención:

Esquema para el nuevo sistema: DreamActor codifica pose, movimiento facial y apariencia en latentes separados, combinándolos con latentes de video rentables producidos por un VAE 3D. Estas señales se fusionan dentro de un transformador de difusión utilizando atención propia y cruzada, con pesos compartidos en todas las ramas. El modelo se supervisa comparando las salidas desoliadas con los latentes de video limpios. Fuente: https://arxiv.org/pdf/2504.01724

Para hacer esto, el modelo utiliza un autointerreno de variacional 3D preventivo para codificar tanto el video de entrada como la imagen de referencia. Estos latentes están parcheados, concatenados y alimentados en el DIT, que los procesa conjuntamente.

Esta arquitectura se aparta de la práctica común de adjuntar una red secundaria para la inyección de referencia, que fue el enfoque para la influyente animar a cualquier persona y animar a cualquiera 2 proyectos.

En cambio, DreamActor incorpora la fusión en el modelo principal en sí, simplificando el diseño al tiempo que mejora el flujo de información entre las señales de apariencia y movimiento. Luego, el modelo se entrena utilizando la coincidencia de flujo en lugar del objetivo de difusión estándar (los modelos de difusión de los trenes de coincidencia de flujo predicen directamente los campos de velocidad entre los datos y el ruido, omitiendo la estimación de la puntuación).

Guía de movimiento híbrido

El método de guía de movimiento híbrido que informa las representaciones neuronales combina tokens de pose derivados de esqueletos del cuerpo 3D y esferas de la cabeza; Representaciones faciales implícitas extraídas por un codificador facial previamente altavado; y tokens de apariencia de referencia muestreados de la imagen de origen.

Estos elementos se integran dentro del transformador de difusión utilizando distintos mecanismos de atención, lo que permite que el sistema coordine el movimiento global, la expresión facial y la identidad visual a lo largo del proceso de generación.

Para el primero de estos, en lugar de confiar en los puntos de referencia faciales, DreamActor utiliza representaciones faciales implícitas para guiar la generación de expresiones, aparentemente permitiendo un control más fino sobre la dinámica facial mientras se desaniman la identidad y la cabeza pose de la expresión.

Para crear estas representaciones, la tubería primero detecta y cultiva la región de la cara en cada cuadro del video de conducción, cambiándolo a 224 × 224. Las caras recortadas se procesan mediante un codificador de movimiento facial previamente en el conjunto de datos PD-FGC, que luego está condicionado por una capa MLP.

PD-FGC, empleado en DreamActor, genera una cabeza parlante a partir de una imagen de referencia con control de sincronización de labios (de audio), pose de cabeza, movimiento ocular y expresión (de videos separados), lo que permite una manipulación precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

El resultado es una secuencia de tokens de movimiento de la cara, que se inyectan en el transformador de difusión a través de una capa de atención cruzada.

El mismo marco también admite un impulsado por audio Variante, en la que se capacita a un codificador separado que mapea la entrada del habla directamente para enfrentar los tokens de movimiento. Esto permite generar animación facial sincronizada, incluidos los movimientos de los labios, sin un video de conducción.

Leer  Los usuarios de WhatsApp enojados por Meta AI "opcional" que no se pueden desactivar

Contenido de audio. Haga clic para jugar. La sincronización de labios se deriva puramente del audio, sin una referencia de actor de conducción. La única entrada del personaje es la foto estática que se ve superior a la derecha.

En segundo lugar, para controlar la cabeza de la cabeza independientemente de la expresión facial, el sistema presenta una representación de esfera de la cabeza 3D (ver video integrado anteriormente en este artículo), que desacopla la dinámica facial del movimiento global de la cabeza, mejorando la precisión y la flexibilidad durante la animación.

Las esferas de la cabeza se generan extrayendo parámetros faciales en 3D, como la rotación y la pose de la cámara, del video de conducción utilizando el método de seguimiento de Faceverse.

Esquema para el proyecto FACEVERSE. Fuente: https://www.liuyebin.com/faceverse/facverse.html

Estos parámetros se utilizan para representar una esfera de color proyectada en el plano de imagen 2D, alineado espacialmente con el cabezal de conducción. El tamaño de la esfera coincide con el cabezal de referencia, y su color refleja la orientación de la cabeza. Esta abstracción reduce la complejidad de aprender el movimiento de la cabeza en 3D, ayudando a preservar formas de cabeza estilizadas o exageradas en personajes extraídos de la animación.

Visualización de la esfera de control que influye en la orientación de la cabeza.

Finalmente, para guiar el movimiento de cuerpo completo, el sistema utiliza esqueletos del cuerpo 3D con normalización adaptativa de longitud ósea. Los parámetros del cuerpo y la mano se estiman utilizando 4dhuman y el Hamer centrado en la mano, los cuales funcionan en el modelo de cuerpo SMPL-X.

SMPL-X aplica una malla paramétrica sobre el cuerpo humano completo en una imagen, alineándose con pose y expresión estimados para permitir la manipulación de la pose utilizando la malla como una guía volumétrica. Fuente: https://arxiv.org/pdf/1904.05866

A partir de estas salidas, las juntas clave se seleccionan, se proyectan en 2D y se conectan en mapas de esqueleto basados ​​en línea. A diferencia de los métodos como Champ, que representan mallas de cuerpo completo, este enfoque evita imponer antecedentes predefinidos, y al confiar únicamente en la estructura esquelética, se alienta al modelo a inferir la forma y la apariencia del cuerpo directamente de las imágenes de referencia, reducir el sesgo hacia los tipos de cuerpo fijos y mejorar la generalización en un rango de poses y construcciones.

Durante el entrenamiento, los esqueletos del cuerpo 3D se concatenan con las esferas de la cabeza y se pasan a través de un codificador de pose, que genera características que luego se combinan con latentes de video noise para producir los tokens de ruido utilizados por el transformador de difusión.

En el momento de la inferencia, el sistema explica las diferencias esqueléticas entre los sujetos al normalizar las longitudes óseas. El modelo de edición de imágenes previamente previa a la imagen de SeedEdit transforma las imágenes de referencia y conducción en una configuración canónica estándar. El RTMpose se usa para extraer proporciones esqueléticas, que se utilizan para ajustar el esqueleto de conducción para que coincida con la anatomía del sujeto de referencia.

Descripción general de la tubería de inferencia. Las pseudo-referencias se pueden generar para enriquecer las señales de apariencia, mientras que las señales de control híbridas (movimiento facial implícito y pose explícita de las esferas de la cabeza y los esqueletos del cuerpo) se extraen del video conductor. Luego se alimentan en un modelo DIT para producir una producción animada, con movimiento facial desacoplado de la pose del cuerpo, lo que permite el uso de audio como conductor.

Guía de apariencia

Para mejorar la fidelidad de la apariencia, particularmente en áreas ocluidas o raramente visibles, el sistema complementa la imagen de referencia principal con pseudo-referencias muestreadas desde el video de entrada.

Haga clic para jugar. El sistema anticipa la necesidad de hacer regiones ocluidas de manera precisa y consistente. Esto es tan cercano como he visto, en un proyecto de este tipo, a un enfoque de textura de mapa de mapa de bits de estilo CGI.

Estos marcos adicionales se eligen para la diversidad de pose utilizando RTMpose, y se filtran utilizando similitud basada en clip para garantizar que sigan siendo consistentes con la identidad del sujeto.

Todos los marcos de referencia (primarios y pseudo) están codificados por el mismo codificador visual y se fusionan a través de un mecanismo de autoatención, lo que permite que el modelo acceda a señales de apariencia complementaria. Esta configuración mejora la cobertura de detalles como vistas de perfil o texturas de las extremidades. Las pseudo-referencias siempre se usan durante el entrenamiento y opcionalmente durante la inferencia.

Leer  El nuevo estudio utiliza la teoría del apego para decodificar las relaciones Human-AI

Capacitación

Dreamactor fue entrenado en tres etapas para introducir gradualmente la complejidad y mejorar la estabilidad.

En la primera etapa, solo se usaron esqueletos de cuerpo 3D y esferas de cabeza 3D como señales de control, excluyendo representaciones faciales. Esto permitió que el modelo de generación de video base, inicializado de MMDIT, se adaptara a la animación humana sin ser abrumado por controles de grano fino.

En la segunda etapa, se agregaron representaciones faciales implícitas, pero todos los demás parámetros se congelaron. Solo el codificador de movimiento de la cara y las capas de atención de la cara fueron entrenadas en este punto, lo que permite que el modelo aprenda detalles expresivos de forma aislada.

En la etapa final, todos los parámetros no estaban congelados para la optimización de las articulaciones a través de la apariencia, pose y la dinámica facial.

Datos y pruebas

Para la fase de prueba, el modelo se inicializa desde un punto de control DIT de imagen a video previamente y entrenado en tres etapas: 20,000 pasos para cada una de las dos primeras etapas y 30,000 pasos para el tercero.

Para mejorar la generalización en diferentes duraciones y resoluciones, los videoclips se muestrearon aleatoriamente con longitudes entre 25 y 121 cuadros. Luego se redimensionaron a 960x640px, al tiempo que preservaron la relación de aspecto.

El entrenamiento se realizó en ocho GPU H20 (centradas en China), cada una con 96 GB de VRAM, utilizando el Optimizer AdamW con una tasa de aprendizaje (tolerablemente alta) de 5E-6.

En inferencia, cada segmento de video contenía 73 cuadros. Para mantener la consistencia entre los segmentos, el latente final de un segmento se reutilizó como el latente inicial para el siguiente, que contextualiza la tarea como la generación secuencial de imagen a video.

La guía sin clasificador se aplicó con un peso de 2.5 para imágenes de referencia y señales de control de movimiento.

Los autores construyeron un conjunto de datos de capacitación (no se establecen fuentes en el documento) que comprende 500 horas de video procedentes de diversos dominios, con casos de (entre otros) danza, deportes, cine y hablar en público. El conjunto de datos fue diseñado para capturar un amplio espectro de movimiento y expresión humana, con una distribución uniforme entre las tomas de cuerpo completo y medio cuerpo.

Para mejorar la calidad de la síntesis facial, Nersemble se incorporó en el proceso de preparación de datos.

Ejemplos del conjunto de datos Nersemble, utilizados para aumentar los datos de DreamActor. Fuente: https://www.youtube.com/watch?v=aaawqbzldu

Para la evaluación, los investigadores utilizaron su conjunto de datos también como punto de referencia para evaluar la generalización en varios escenarios.

El rendimiento del modelo se midió utilizando métricas estándar del trabajo anterior: Distancia de inicio de Fréchet (FID); Índice de similitud estructural (SSIM); Similitud de parche de imagen perceptual aprendida (LPIP); y relación señal / ruido máxima (PSNR) para la calidad a nivel de marco. La distancia de video de Fréchet (FVD) se utilizó para evaluar la coherencia temporal y la fidelidad general del video.

Los autores realizaron experimentos en tareas de animación del cuerpo y animación de retratos, todos empleando una sola imagen de referencia (objetivo).

Para la animación del cuerpo, DreamActor-M1 se comparó contra Animate a cualquiera; Morder; Mimicmotion y deshacerse.

Comparaciones cuantitativas con marcos rivales.

Aunque el PDF proporciona una imagen estática como comparación visual, uno de los videos del sitio del proyecto puede resaltar las diferencias más claramente:

Contenido de audio. Haga clic para jugar. Una comparación visual entre los marcos Challenger. El video de conducción se ve de arriba a la izquierda, y la conclusión de los autores de que DreamActor produce los mejores resultados parece razonable.

Para las pruebas de animación de retratos, el modelo fue evaluado contra LivePorTrait; Portraito X; Skyreels-A1; y acto-one.

Comparaciones cuantitativas para la animación de retratos.

Los autores señalan que su método gana en pruebas cuantitativas y sostienen que también es superior cualitativamente.

Contenido de audio. Haga clic para jugar. Ejemplos de comparaciones de animación de retratos.

Podría decirse que el tercero y el final de los clips mostrados en el video anterior exhibe una sincronización de labios menos convincente en comparación con un par de marcos rivales, aunque la calidad general es notablemente alta.

Conclusión

Al anticipar la necesidad de texturas que estén implícitas pero que no están presentes en la única imagen objetivo que alimenta estas recreaciones, el bytedance ha abordado uno de los mayores desafíos que enfrenta la generación de videos basada en la difusión: texturas persistentes consistentes. El siguiente paso lógico después de perfeccionar este enfoque sería crear de alguna manera un Atlas de referencia del clip inicial generado que podría aplicarse a las generaciones posteriores y posteriores, para mantener la apariencia sin LORAS.

Aunque este enfoque de este tipo aún sería una referencia externa, esto no es diferente del mapeo de texturas en las técnicas de CGI tradicionales, y la calidad del realismo y la plausibilidad es mucho más alta de lo que pueden obtener esos métodos más antiguos.

Dicho esto, el aspecto más impresionante de DreamActor es el sistema combinado de orientación de tres partes, que une la división tradicional entre la síntesis humana centrada en la cara y centrada en el cuerpo de una manera ingeniosa.

Solo queda por ver si algunos de estos principios centrales pueden aprovecharse en ofertas más accesibles; Tal como está, DreamActor parece destinado a convertirse en otra oferta de síntesis como servicio, unida severamente vinculada por restricciones sobre el uso y por la impracticabilidad de experimentar ampliamente con una arquitectura comercial.

* Mi sustitución de hipervínculos para los autores; citas en línea

Como se mencionó anteriormente, no está claro con el sabor de la difusión estable en este proyecto.

Publicado por primera vez el viernes 4 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares