Este artículo analiza un nuevo lanzamiento de un modelo de video mundial de Hunyuan multimodal llamado ‘Hunyuancustom’. La amplitud de cobertura del nuevo artículo, combinado con varios problemas en muchos de los videos de ejemplo suministrados en la página del proyecto*, nos limita a una cobertura más general de lo habitual, y a la reproducción limitada de la gran cantidad de material de video que acompaña a esta versión (ya que muchos de los videos requieren una reedición y procesamiento significativos para mejorar la lectura del diseño).
Tenga en cuenta además que el documento se refiere al sistema generativo basado en API Kling como ‘Keling’. Para mayor claridad, me refiero a ‘Kling’ en su lugar.
Tencent está en el proceso de lanzar una nueva versión de su modelo de video Hunyuan, titulado Hunyuancustom. El nuevo lanzamiento aparentemente es capaz de hacer que los modelos Hunyuan Lora sean redundantes, permitiendo al usuario crear personalización de video de estilo ‘Deepfake’ a través de una soltero imagen:
Haga clic para jugar. Aviso: “Un hombre está escuchando música y cocinando fideos de caracoles en la cocina”. El nuevo método en comparación con los métodos de código cerrado y de código abierto, incluido Kling, que es un oponente significativo en este espacio. Fuente: https://hunyuancustom.github.io/ (Advertencia: ¡CPU/Memory-intensivo!)
En la columna más izquierda del video de arriba, vemos la imagen de fuente única suministrada a Hunyuancustom, seguida de la interpretación del nuevo sistema de la solicitud en la segunda columna, al lado. Las columnas restantes muestran los resultados de varios sistemas patentados y de foss: Kling; Vidu; Pika; Hailuo; y los Skyreels-A2 con sede en WAN.
En el video a continuación, vemos renders de tres escenarios esenciales para este lanzamiento: respectivamente, persona + objeto; emulación de un solo personaje; y Prueba virtual (persona + ropa):
Haga clic para jugar. Tres ejemplos editados del material en el sitio de apoyo para el video de Hunyuan.
Podemos notar algunas cosas de estos ejemplos, principalmente relacionados con el sistema que depende de un Imagen de fuente única, en lugar de múltiples imágenes del mismo tema.
En el primer clip, el hombre es esencialmente enfrentando la cámara. Él cede la cabeza hacia abajo y de lado a no mucho más de 20-25 grados de rotación, pero, a una inclinación que excede eso, el sistema realmente tendría que comenzar a adivinar cómo se ve en perfil. Esto es difícil, probablemente imposible de medir con precisión de una imagen frontal única.
En el segundo ejemplo, vemos que la niña es sonriente en el video renderizado como está en la imagen fuente estática única. Nuevamente, con esta única imagen como referencia, el Hunyuancustom tendría que hacer una suposición relativamente desinformada sobre cómo se ve su ‘cara de descanso’. Además, su rostro no se desvía de la postura orientada a la cámara por más que el ejemplo anterior (‘hombre comiendo patatas fritas’).
En el último ejemplo, vemos que, dado que el material fuente, la mujer y la ropa que se le impide usar, no son imágenes completas, el render ha recortado el escenario que encaja, ¡lo cual es más bien una buena solución para un problema de datos!
El punto es que aunque el nuevo sistema puede manejar múltiples imágenes (como persona + patatas fritaso Persona + ropa), aparentemente no permite múltiples ángulos o vistas alternativas de un solo personajede modo que se pueden acomodar diversas expresiones o ángulos inusuales. En este sentido, el sistema puede tener dificultades para reemplazar el creciente ecosistema de los modelos Lora que han surgido alrededor de Hunyuanvideo desde su lanzamiento en diciembre pasado, ya que estos pueden ayudar a Hunyuanvideo a producir caracteres consistentes desde cualquier ángulo y con cualquier expresión facial representada en el conjunto de datos de entrenamiento (las imágenes 20-60 son típicas).
Cableado para el sonido
Para el audio, Hunyuancustom aprovecha el sistema LatentSync (notoriamente difícil para los aficionados a configurar y obtener buenos resultados) para obtener movimientos de labios que coincidan con el audio y el texto que el usuario proporciona:
Presenta audio. Haga clic para jugar. Varios ejemplos de sincronización labial del sitio suplementario de Hunyuancustom, editado juntos.
Al momento de escribir, no hay ejemplos en inglés, pero estos parecen ser bastante buenos, cuanto más si el método de crearlos es fácilmente instalable y accesible.
Edición de video existente
El nuevo sistema ofrece lo que parece ser resultados muy impresionantes para la edición de video a video (V2V, o VID2VID), en el que un segmento de un video existente (real) se enmascare y se reemplaza de manera inteligente por un sujeto dado en una sola imagen de referencia. A continuación se muestra un ejemplo del sitio de materiales complementarios:
Haga clic para jugar. Solo el objeto central está dirigido, pero lo que queda a su alrededor también se altera en un pase Hunyuancustom Vid2vid.
Como podemos ver, y como es estándar en un escenario Vid2Vid, el video completo en cierta medida está alterado por el proceso, aunque más alterado en la región objetivo, es decir, el peluche. Presumiblemente, las tuberías podrían desarrollarse para crear tales transformaciones bajo un enfoque mate de basura que deja a la mayoría del contenido de video idéntico al original. Esto es lo que Adobe Firefly hace debajo del capó, y lo hace bastante bien, pero es un proceso poco estudiado en la escena generativa de FOSS.
Dicho esto, la mayoría de los ejemplos alternativos proporcionados hacen un mejor trabajo al dirigir estas integraciones, como podemos ver en la compilación ensamblada a continuación:
Haga clic para jugar. Diversos ejemplos de contenido intermedio usando Vid2vid en Hunyuancustom, exhibiendo un respeto notable por el material no dirigido.
¿Un nuevo comienzo?
Esta iniciativa es un desarrollo del proyecto de video Hunyuan, no a un pivote duro de ese flujo de desarrollo. Las mejoras del proyecto se introducen como inserciones arquitectónicas discretas en lugar de ampliar los cambios estructurales, con el objetivo de permitir que el modelo mantenga la fidelidad de identidad en los cuadros sin confiar en específico ajuste fino, como con los enfoques de inversión textual o lora.
Para ser claros, por lo tanto, Hunyuancustom no está entrenado desde cero, sino que es un ajuste del modelo de la Fundación Hunyuanvideo de diciembre de 2024.
Aquellos que han desarrollado Hunyuanvideo Loras pueden preguntarse si aún trabajarán con esta nueva edición, o si tendrán que reinventar la rueda Lora una vez más si desean más capacidades de personalización que las que están integradas en este nuevo lanzamiento.
En general, una liberación muy ajustada de un modelo de hiperescala altera los pesos del modelo lo suficiente como para que Loras hechas para el modelo anterior no funcione correctamente, o en absoluto, con el modelo recientemente refinado.
A veces, sin embargo, la popularidad de un tono fino puede desafiar sus orígenes: un ejemplo de un ajuste fino que se convierte en un efectivo tenedorcon un ecosistema dedicado y seguidores propios, es el ajuste de difusión de pony de la difusión estable XL (SDXL). Pony actualmente tiene más de 592,000 descargas en el dominio Civitai en constante cambio, con una amplia gama de loras que han usado pony (y no SDXL) como modelo base, y que requieren pony en el momento de la inferencia.
Lanzamiento
La página del proyecto para el nuevo artículo (que se titula Hunyuancustom: una arquitectura multimodal para la generación de videos personalizados) Cuenta con enlaces a un sitio de GitHub que, como escribo, se volvió funcional, y parece contener todo el código y los pesos necesarios para la implementación local, junto con una línea de tiempo propuesta (donde lo único importante que está por venir es la integración cómoda).
Al momento de escribir, la presencia de la cara abrazada del proyecto sigue siendo un 404. Sin embargo, hay una versión basada en API de donde aparentemente se puede demostrar el sistema, siempre que pueda proporcionar un código de escaneo WeChat.
Raramente he visto un uso tan elaborado y extenso de una variedad tan amplia de proyectos en una asamblea, como es evidente en Hunyuancustom, y presumiblemente algunas de las licencias en cualquier caso obligarían a una liberación completa.
Se anuncian dos modelos en la página de GitHub: una versión 720px1280px que requiere 8) GB de memoria máxima GPU y una versión 512px896px que requiere 60 GB de memoria pico de GPU.
El repositorio estados ‘La memoria mínima de GPU requerida es de 24 GB para 720px1280px129f pero muy lenta … Recomendamos usar una GPU con 80 GB de memoria para una mejor calidad de generación’ ‘ – e itera que el sistema solo se ha probado hasta ahora en Linux.
El modelo de video de Hunyuan anterior, desde el lanzamiento oficial, se ha cuantificado hasta los tamaños donde se puede ejecutar en menos de 24 GB de VRAM, y parece razonable suponer que la comunidad también se adaptará a formas más amigables para el consumidor, y que también se adaptará rápidamente en los sistemas de Windows.
Debido a las limitaciones de tiempo y la abrumadora cantidad de información que acompaña a esta versión, solo podemos analizar esta versión más amplia, en lugar de profundidad. Sin embargo, vamos a poner un poco el capó en Hunyuancustom.
Un vistazo al papel
La cartera de datos para Hunyuancustom, aparentemente que cumple con el marco GDPR, incorpora conjuntos de datos de video sintetizados y de código abierto, incluidos OpenHumanvid, con ocho categorías principales representadas: humanos, animales, plantas, paisajes, vehículos, objetos, arquitecturay anime.
Desde el documento de lanzamiento, una descripción general de los diversos paquetes contribuyentes en la tubería de construcción de datos Hunyuancustom. Fuente: https://arxiv.org/pdf/2505.04512
El filtrado inicial comienza con PysCenedetect, que segmenta videos en clips de un solo disparo. TextBPN-plus-plus se usa para eliminar videos que contienen texto excesivo en pantalla, subtítulos, marcas de agua o logotipos.
Para abordar las inconsistencias en la resolución y la duración, los clips están estandarizados a cinco segundos de longitud y se redimensionan a 512 o 720 píxeles en el lado corto. El filtrado estético se maneja utilizando KOALA-36M, con un umbral personalizado de 0.06 aplicado para el conjunto de datos personalizado comisariado por los investigadores del nuevo artículo.
El proceso de extracción de sujeto combina el modelo de lenguaje grande QWEN7B (LLM), el marco de reconocimiento de objetos YOLO11X y la arquitectura popular de Insightface, para identificar y validar las identidades humanas.
Para los sujetos no humanos, QWenvl y Sam 2 se usan para extraer cajas limitadas relevantes, que se descartan si son demasiado pequeñas.
Ejemplos de segmentación semántica con SAM 2, utilizados en el proyecto de control de Hunyuan. Fuente: https://github.com/idea-research/grounded-sam-2
La extracción de múltiples sujetos utiliza Florence2 para la anotación de la caja delimitadora y Sam 2 fundamentada para la segmentación, seguido de la agrupación y la segmentación temporal de los marcos de entrenamiento.
Los clips procesados se mejoran aún más a través de la anotación, utilizando un sistema de marcado estructurado patentado desarrollado por el equipo de Hunyuan, y que proporciona metadatos en capas, como descripciones y señales de movimiento de la cámara.
Las estrategias de aumento de máscara, incluida la conversión a las cajas delimitadoras, se aplicaron durante el entrenamiento para reducir el sobreajuste y garantizar que el modelo se adapte a diversas formas de objetos.
Los datos de audio se sincronizaron utilizando LatentSync mencionados anteriormente, y los clips descartados si los puntajes de sincronización caen por debajo de un umbral mínimo.
El marco de evaluación de calidad de imagen ciega Hyperiqa se utilizó para excluir videos con una puntuación de menos de 40 (en la escala a medida de Hyperiqa). Las pistas de audio válidas se procesaron con Whisper para extraer funciones para tareas aguas abajo.
Los autores incorporan el modelo de asistente de lenguaje Llava durante la fase de anotación, y enfatizan la posición central que este marco tiene en Hunyuancustom. Llava se utiliza para generar subtítulos de imagen y ayudar a alinear el contenido visual con las indicaciones de texto, lo que respalda la construcción de una señal de capacitación coherente a través de las modalidades:
El marco Hunyuancustom admite la generación de videos consistente en la identidad condicionada en el texto, la imagen, el audio y las entradas de video.
Al aprovechar las capacidades de alineación del idioma de visión de Llava, la tubería gana una capa adicional de consistencia semántica entre los elementos visuales y sus descripciones textuales, especialmente valiosa en escenarios de escenas múltiples de sujetos o complejos.
Video personalizado
Para permitir la generación de videos basados en una imagen de referencia y un aviso, se crearon los dos módulos centrados alrededor de Llava, adaptando primero la estructura de entrada de Hunyuanvideo para que pudiera aceptar una imagen junto con el texto.
Esto implicó formatear el indicador de una manera que incrusta la imagen directamente o la etiqueta con una breve descripción de identidad. Se usó un token separador para evitar que la imagen de la imagen abrumara el contenido rápido.
Dado que el codificador visual de Llava tiende a comprimir o descartar detalles espaciales de grano fino durante la alineación de las características de imagen y texto (particularmente al traducir una sola imagen de referencia a una incrustación semántica general), una módulo de mejora de identidad fue incorporado. Dado que casi todos los modelos de difusión latente de video tienen algunas dificultades para mantener una identidad sin un Lora, incluso en un clip de cinco segundos, el rendimiento de este módulo en las pruebas comunitarias puede ser significativo.
En cualquier caso, la imagen de referencia se redimensiona y se codifica utilizando el 3D VAE causal del modelo original de Hunyuanvideo, y su latente se inserta en el video latente a través del eje temporal, con un desplazamiento espacial aplicado para evitar que la imagen se reproduzca directamente en la salida, mientras aún está guiando la generación.
El modelo fue entrenado con coincidencia de flujo, con muestras de ruido extraídas de una distribución logit normal, y la red fue entrenada para recuperar el video correcto de estos ruidosos latentes. Llava y el generador de video estaban sintonizados juntos para que la imagen y la solicitud pudieran guiar la salida con más fluidez y mantener la identidad del sujeto consistente.
Para las indicaciones de múltiples sujetos, cada par de texto de imagen se incrustó por separado y se le asignó una posición temporal distinta, lo que permite que se distinguen las identidades y apoyen la generación de escenas que involucran múltiple sujetos interactuando.
Sonido y visión
Hunyuancustom condiciona a la generación de audio/habla utilizando el audio de entrada de usuario y un mensaje de texto, lo que permite a los caracteres hablar dentro de las escenas que reflejan la configuración descrita.
Para respaldar esto, un módulo de Audionet de identidad introduce características de audio sin interrumpir las señales de identidad incrustadas de la imagen de referencia y el indicador. Estas características están alineadas con la línea de tiempo de video comprimida, dividida en segmentos a nivel de marco e inyectado utilizando un mecanismo espacial de atención cruzada que mantiene cada cuadro aislado, preservando la consistencia del sujeto y evitando la interferencia temporal.
Un segundo módulo de inyección temporal proporciona un control más fino sobre el tiempo y el movimiento, trabajando en conjunto con Audionet, asignando características de audio a regiones específicas de la secuencia latente y utilizando un perceptron de múltiples capas (MLP) para convertirlas en compensaciones de movimiento de token. Esto permite que los gestos y el movimiento facial sigan el ritmo y el énfasis de la entrada hablada con mayor precisión.
Hunyuancustom permite que los sujetos en los videos existentes se editen directamente, reemplazando o insertando personas u objetos en una escena sin necesidad de reconstruir todo el clip desde cero. Esto lo hace útil para tareas que implican alterar la apariencia o el movimiento de una manera específica.
Haga clic para jugar. Otro ejemplo del sitio suplementario.
Para facilitar el reemplazo de sujeto eficiente en los videos existentes, el nuevo sistema evita el enfoque intensivo de recursos de métodos recientes, como el Vace actualmente popular actualmente, o aquellos que fusionan secuencias de video enteras juntas, favoreciendo en su lugar la compresión de un video de referencia utilizando el 3D-VAE previamente pretenerado, lo que lo alinea con los latentes de video internos de la tubería de generación y luego agregó los dos juntos. Esto mantiene el proceso relativamente ligero, al tiempo que permite que el contenido de video externo guíe la salida.
Una pequeña red neuronal maneja la alineación entre el video de entrada limpia y los latentes ruidosos utilizados en la generación. El sistema prueba dos formas de inyectar esta información: fusionar los dos conjuntos de características antes de comprimirlas nuevamente; y agregar las características marco por marco. El segundo método funciona mejor, encontraron los autores, y evitan la pérdida de calidad mientras mantiene la carga computacional sin cambios.
Datos y pruebas
En las pruebas, las métricas utilizadas fueron: el módulo de consistencia de identidad en Arcface, que extrae incrustaciones faciales tanto de la imagen de referencia como de cada cuadro del video generado, y luego calcula la similitud cosena promedio entre ellos; similitudmediante el envío de segmentos Yolo11x a Dino 2 para comparar; Clip-B, alineación de videos de texto, que mide la similitud entre el video y el video generado; Clip-B nuevamente, para calcular la similitud entre cada cuadro y tanto sus marcos vecinos como el primer cuadro, así como la consistencia temporal; y grado dinámicosegún lo definido por Vbench.
Como se indicó anteriormente, los competidores de origen cerrado de línea de base fueron Hailuo; Vidu 2.0; Kling (1.6); y pika. Los marcos de Foss competitivos fueron Vace y Skyreels-A2.
Evaluación del rendimiento del modelo que compara Hunyuancustom con los principales métodos de personalización de video a través de la consistencia de ID (Face-SIM), Similidad del sujeto (Dino-SIM), Alineación de Text-Video (CLIP-BT), consistencia temporal (Consis Temp) e intensidad de movimiento (DD). Los resultados óptimos y subóptimos se muestran en negrita y subrayado, respectivamente.
De estos resultados, los autores afirman:
‘Nuestro (Hunyuancustom) logra la mejor consistencia de identificación y consistencia del sujeto. También logra resultados comparables en el seguimiento rápido y la consistencia temporal. (Hailuo) tiene la mejor puntuación de clip porque puede seguir bien las instrucciones de texto con solo consistencia de identificación, sacrificando la consistencia de sujetos no humanos (el peor dino-sim). En términos de grado dinámico, (Vidu) y (Vace) funcionan mal, lo que puede deberse al pequeño tamaño del modelo.
Aunque el sitio del proyecto está saturado con videos de comparación (cuyo diseño parece haber sido diseñado para la estética del sitio web en lugar de una comparación fácil), actualmente no presenta un video equivalente de los resultados estáticos repletos en el PDF, con respecto a las pruebas cualitativas iniciales. Aunque lo incluyo aquí, animo al lector a hacer un examen minucioso de los videos en el sitio del proyecto, ya que dan una mejor impresión de los resultados:
Del documento, una comparación en la personalización de video centrada en objetos. Aunque el espectador debe (como siempre) referirse al PDF de origen para una mejor resolución, los videos en el sitio del proyecto podrían ser un recurso más esclarecedor en este caso.
Los autores comentan aquí:
‘Se puede ver que (Vidu), (Skyreels A2) y nuestro método logran resultados relativamente buenos en una rápida alineación y consistencia del sujeto, pero nuestra calidad de video es mejor que Vidu y Skyreels, gracias al buen rendimiento de la generación de videos de nuestro modelo base, es decir, (hunyuanvideo-13b).
“Entre los productos comerciales, aunque (Kling) tiene una buena calidad de video, el primer cuadro del video tiene una copia de pasta (problema) y, a veces, el sujeto se mueve demasiado rápido y (desenfoque), liderando una mala experiencia de visualización”.
Los autores comentan además que PIKA funciona mal en términos de consistencia temporal, introduciendo artefactos de subtítulos (efectos de la curación de datos deficiente, donde se ha permitido que los elementos de texto en los videoclips contaminen los conceptos centrales).
Hailuo mantiene la identidad facial, indican, pero no preserva la consistencia del cuerpo completo. Entre los métodos de código abierto, Vace, afirman los investigadores, no puede mantener la consistencia de la identidad, mientras que sostienen que Hunyuancustom produce videos con una fuerte preservación de la identidad, al tiempo que conserva la calidad y la diversidad.
A continuación, se realizaron pruebas para Personalización de video de múltiples sujetoscontra los mismos contendientes. Como en el ejemplo anterior, los resultados de PDF aplanados no son equivalentes impresos de videos disponibles en el sitio del proyecto, pero son únicos entre los resultados presentados:
Comparaciones utilizando personalizaciones de video de múltiples sujetos. Consulte PDF para obtener mejores detalles y resolución.
El documento dice:
‘(Pika) puede generar los sujetos especificados, pero exhibe inestabilidad en los marcos de video, con casos de un hombre que desaparece en un escenario y una mujer que no abre una puerta como se solicita. (Vidu) y (VACE) capturan parcialmente la identidad humana pero pierden detalles significativos de objetos no humanos, lo que indica una limitación en la representación de sujetos no humanos.
‘(Skyreels A2) experimenta una severa inestabilidad del marco, con cambios notables en los chips y numerosos artefactos en el escenario correcto.
“En contraste, nuestro Hunyuancustom captura efectivamente las identidades de sujetos humanos y no humanos, genera videos que se adhieren a las indicaciones dadas y mantienen una alta calidad y estabilidad visual”.
Otro experimento fue ‘anuncio humano virtual’, en el que los marcos tenían la tarea de integrar un producto con una persona:
De la ronda de pruebas cualitativas, ejemplos de ‘colocación de productos’ neural. Consulte PDF para obtener mejores detalles y resolución.
Para esta ronda, los autores afirman:
‘Los (resultados) demuestran que Hunyuancustom mantiene efectivamente la identidad del humano al tiempo que preserva los detalles del producto objetivo, incluido el texto en él.
“Además, la interacción entre el humano y el producto parece natural, y el video se adhiere estrechamente al aviso dado, destacando el potencial sustancial de Hunyuancustom en la generación de videos publicitarios”.
Un área donde los resultados de video habrían sido muy útiles fue la ronda cualitativa para la personalización de los sujetos impulsados por el audio, donde el personaje habla el audio correspondiente de una escena y postura descritadas por texto.
Resultados parciales dados para la ronda de audio, aunque los resultados del video podrían haber sido preferibles en este caso. Solo la mitad superior de la figura PDF se reproduce aquí, ya que es grande y difícil de acomodar en este artículo. Consulte el PDF de origen para obtener mejores detalles y resolución.
Los autores afirman:
‘Los métodos anteriores de animación humana impulsados por el audio ingresan una imagen humana y un audio, donde la postura humana, la atuendo y el entorno siguen siendo consistentes con la imagen dada y no pueden generar videos en otros gestos y entornos, lo que puede (restringir) su aplicación.
‘… (Nuestro) Hunyuancustom permite la personalización humana impulsada por el audio, donde el personaje habla el audio correspondiente en una escena y postura descritas por texto, lo que permite una animación humana de audio más flexible y controlable’.
Otras pruebas (consulte PDF para todos los detalles) incluyeron una ronda que se enfrenta al nuevo sistema contra Vace y Kling 1.6 para el reemplazo de temas de video:
Prueba de reemplazo del sujeto en modo de video a video. Consulte el PDF de origen para obtener mejores detalles y resolución.
De estos, las últimas pruebas presentadas en el nuevo artículo, los investigadores opina:
‘Vace sufre de artefactos límite debido a la estricta adhesión a las máscaras de entrada, lo que resulta en formas de sujetos antinaturales y la continuidad del movimiento interrumpida. (Kling), por el contrario, exhibe un efecto de copia, donde los sujetos se superponen directamente al video, lo que lleva a una integración deficiente con los antecedentes.
“En comparación, Hunyuancustom evita efectivamente los artefactos límite, logra una integración perfecta con los antecedentes de video y mantiene una fuerte preservación de la identidad, evitando su rendimiento superior en las tareas de edición de videos”.
Conclusión
Este es un lanzamiento fascinante, sobre todo porque aborda algo de lo que la escena de aficionados siempre discontente se ha quejado más recientemente: la falta de sincronización labial, de modo que el aumento de realismo capaz en sistemas como Hunyuan Video y WAN 2.1 podría tener una nueva dimensión de autenticidad.
Aunque el diseño de casi todos los ejemplos de videos comparativos en el sitio del proyecto hace que sea bastante difícil comparar las capacidades de Hunyuancustom contra contendientes anteriores, debe tenerse en cuenta que muy pocos proyectos en el espacio de síntesis de video tienen el coraje de las pruebas contra Kling, la API de difusión comercial que siempre está en cuanto a la parte superior de las cosas líderes; Tencent parece haber avanzado contra este titular de una manera bastante impresionante.
* El problema es que algunos de los videos son tan amplios, cortos y de alta resolución que no jugarán en reproductores de video estándar como VLC o Windows Media Player, que muestran pantallas negras.
Publicado por primera vez el jueves 8 de mayo de 2025