Si desea ubicarse en una herramienta popular de generación de imágenes o videos, pero no es lo suficientemente famoso como para que el modelo de base lo reconozca, deberá entrenar un modelo de adaptación de bajo rango (LORA) utilizando una colección de sus propias fotos. Una vez creado, este modelo Lora personalizado permite que el modelo generativo incluya su identidad en futuros resultados.
Esto se llama comúnmente personalización En el sector de investigación de síntesis de imagen y video. Primero surgió unos meses después del advenimiento de la difusión estable en el verano de 2022, con el proyecto Dreambooth de Google Research que ofrece modelos de personalización de alta gigabyte, en un esquema de código cerrado que pronto fue adaptado por entusiastas y lanzados a la comunidad.
Los modelos de Lora siguieron rápidamente y ofrecieron una capacitación más fácil y tamaños de archivos mucho más ligeros, a un costo mínimo o sin costo de calidad, dominando rápidamente la escena de personalización para la difusión estable y sus sucesores, modelos posteriores como Flux, y ahora nuevos modelos de video generativos como Hunyuan Video y WAN 2.1.
Enjuague y repita
El problema es, como hemos señalado antes, que cada vez que sale un nuevo modelo, necesita una nueva generación de LORAS para ser entrenados, lo que representa una fricción considerable en los productores de Lora, que pueden capacitar una gama de modelos personalizados solo para encontrar que una actualización de modelo o un modelo más nuevo más popular significa que necesitan comenzar de nuevo.
Por lo tanto, los enfoques de personalización de disparo cero se han convertido en un hilo fuerte en la literatura últimamente. En este escenario, en lugar de necesitar curar un conjunto de datos y entrenar su propio submodelo, simplemente suministra una o más fotos del sujeto para inyectarse en la generación, y el sistema interpreta estas fuentes de entrada en una salida combinada.
A continuación vemos que, además del intercambio de la cara, un sistema de este tipo (aquí usando Pulid) también puede incorporar los valores de identificación en la transferencia de estilo:
Ejemplos de transferencia de identificación facial utilizando el sistema Pulid. Fuente: https://github.com/tothebeginning/pulid?tab=readme-ov-file
Si bien reemplazar un sistema de mano de obra intensivo y frágil como Lora con un adaptador genérico es una gran idea (y popular), también es un desafío; La extrema atención al detalle y la cobertura obtenida en el proceso de entrenamiento de Lora es muy difícil de imitar en un modelo de estilo IP-adaptador de una sola vez, que tiene que coincidir con el nivel de detalle y flexibilidad de Lora sin la ventaja previa de analizar un conjunto integral de imágenes de identidad.
Hiperlora
Con esto en mente, hay un nuevo artículo interesante de Bytedance que propone un sistema que genera código Lora real sobre la marchaque actualmente es único entre las soluciones de disparo cero:
A la izquierda, imágenes de entrada. Derecho de eso, una gama flexible de salida basada en las imágenes de origen, produciendo efectivamente los profundos de los actores Anthony Hopkins y Anne Hathaway. Fuente: https://arxiv.org/pdf/2503.16944
El documento dice:
‘Las técnicas basadas en el adaptador, como el adaptador IP congelan los parámetros del modelo fundamental y emplean una arquitectura enchufable para permitir la inferencia de disparo cero, pero a menudo exhiben una falta de naturalidad y autenticidad, que no deben pasarse por alto en las tareas de síntesis de retratos.
‘(Nosotros) introducimos un método de generación adaptativo eficiente en parámetros, a saber, Hyperlute, que utiliza una red complementaria adaptativa para generar pesos Lora, fusionando el rendimiento superior de Lora con la capacidad de disparo cero del esquema adaptador.
‘A través de nuestra estructura de red y estrategia de capacitación cuidadosamente diseñada, logramos una generación de retratos personalizados de disparo cero (que admite entradas de imágenes simples y múltiples) con alto fotorrealismo, fidelidad y capacidad de edición’.
Lo más útil, el sistema como entrenado se puede utilizar con el control de control existente, lo que permite un alto nivel de especificidad en la generación:
Timothy Chalomet hace una apariencia inesperadamente alegre en ‘The Shining’ (1980), basada en tres fotos de entrada en Hyperlora, con una máscara de control que define la salida (en concierto con un mensaje de texto).
En cuanto a si el nuevo sistema alguna vez estará disponible para los usuarios finales, Bytedance tiene un registro razonable a este respecto, habiendo lanzado el poderoso marco de sincronización de labios Latentsync, y solo habiendo lanzado también el marco Infiniteyou.
Negativamente, el documento no indica una intención de liberar, y los recursos de capacitación necesarios para recrear el trabajo son tan exorbitantes que sería un desafío para la comunidad entusiasta recrear (como lo hizo con Dreambooth).
El nuevo artículo se titula Hiperlora: generación adaptativa eficiente de parámetros para la síntesis de retratosy proviene de siete investigadores en el departamento de creación inteligente dedicado de Bytedance y Bytedance.
Método
El nuevo método utiliza el SDXL del modelo de difusión de difusión estable (LDM) como modelo de base, aunque los principios parecen aplicables a los modelos de difusión en general (sin embargo, las demandas de capacitación, ver más abajo, pueden dificultar la aplicación a los modelos de video generativos).
El proceso de capacitación para Hyperltera se divide en tres etapas, cada una diseñada para aislar y preservar información específica en los pesos aprendidos. El objetivo de este procedimiento cercado con anillo es evitar que las características relevantes para la identidad sean contaminadas por elementos irrelevantes como ropa o fondo, al mismo tiempo que logran una convergencia rápida y estable.
Esquema conceptual para Hyperltera. El modelo se divide en ‘Hyper Id-Lora’ para características de identidad y ‘Hyper Base-Lora’ para fondo y ropa. Esta separación reduce la fuga de características. Durante el entrenamiento, la base SDXL y los codificadores están congelados, y solo se actualizan los módulos de hiperlora. En inferencia, solo se requiere ID-Lora para generar imágenes personalizadas.
La primera etapa se centra completamente en aprender un ‘Base-lora’ (Baja izquierda en la imagen de esquema arriba), que captura detalles irrelevantes de identidad.
Para hacer cumplir esta separación, los investigadores borraron deliberadamente la cara en las imágenes de entrenamiento, permitiendo que el modelo se enganchara sobre cosas como el fondo, la iluminación y la pose, pero no la identidad. Esta etapa de ‘calentamiento’ actúa como un filtro, eliminando las distracciones de bajo nivel antes de que comience el aprendizaje específico de la identidad.
En la segunda etapa, un ‘Id-lora’ (Se introduce la parte superior izquierda en la imagen de esquema arriba). Aquí, la identidad facial se codifica utilizando dos vías paralelas: un transformador de visión de clip (clip vit) para características estructurales y el codificador Insightface AntLopev2 para representaciones de identidad más abstractas.
Enfoque de transición
Las características del clip ayudan al modelo a converger rápidamente, pero arriesgan el sobreajuste, mientras que los incrustaciones de antílope son más estables pero más lentos de entrenar. Por lo tanto, el sistema comienza dependiendo más del clip, y gradualmente fases en el antílope, para evitar la inestabilidad.
En la etapa final, las capas de atención guiadas por clip se congelan por completo. Solo los módulos de atención ligados a AntlapeV2 continúan entrenando, lo que permite que el modelo refine la preservación de la identidad sin degradar la fidelidad o la generalidad de componentes previamente aprendidos.
Esta estructura gradual es esencialmente un intento de desenredado. Las características de identidad y no identidad se separan primero, luego se refinan de forma independiente. Es una respuesta metódica a los modos de falla habituales de personalización: deriva de identidad, baja capacidad de edición y sobreajuste a las características incidentales.
Mientras pesas
Después de clip Vit y AntLopev2 han extraído las características estructurales y específicas de la identidad de un retrato dado, las características obtenidas se pasan a través de un Perceptor RESMERPLER (derivado del proyecto IP-Adapter mencionado anteriormente): un módulo basado en transformador que mapea las características a un conjunto compacto de coeficientes.
Se utilizan dos resamplers separados: uno para generar pesos base-lora (que codifican elementos de antecedentes y no identidad) y otro para los pesos ID-lora (que se centran en la identidad facial).
Esquema para la red Hyperlora.
Los coeficientes de salida se combinan linealmente con un conjunto de matrices de base LORA aprendidas, produciendo pesos lora completos sin la necesidad de ajustar el modelo base.
Este enfoque permite que el sistema genere pesos personalizados. completamente sobre la moscautilizando solo codificadores de imágenes y proyección ligera, al tiempo que aprovecha la capacidad de Lora para modificar directamente el comportamiento del modelo base.
Datos y pruebas
Para entrenar a Hyperluter, los investigadores utilizaron un subconjunto de 4.4 millones de imágenes faciales del conjunto de datos LAION-2B (ahora mejor conocido como la fuente de datos para los modelos originales de difusión estable 2022).
Insightface se utilizó para filtrar caras no del Portrazo y múltiples imágenes. Las imágenes fueron anotadas con el sistema de subtítulos Blip-2.
En términos de aumento de datos, las imágenes se recortaron aleatoriamente alrededor de la cara, pero siempre se centraron en la región de la cara.
Las respectivas filas de Lora tuvieron que adaptarse a la memoria disponible en la configuración de capacitación. Por lo tanto, el rango Lora para ID-Lora se estableció en 8, y el rango para Base-Lora a 4, mientras que la acumulación de gradiente de ocho pasos se usó para simular un tamaño por lotes más grande de lo que realmente era posible en el hardware.
Los investigadores capacitaron a los módulos Base-Lora, ID-Lora (Clip) e Id-Lora (Identity Increding) secuencialmente para iteraciones de 20k, 15k y 55K, respectivamente. Durante el entrenamiento ID-Lora, se tomaron muestras de tres escenarios de acondicionamiento con probabilidades de 0.9, 0.05 y 0.05.
El sistema se implementó utilizando Pytorch y difusores, y el proceso de capacitación completo se ejecutó durante aproximadamente diez días en 16 GPU A100 NVIDIA*.
Pruebas cómodas
Los autores construyeron flujos de trabajo en la plataforma de síntesis Comfyui para comparar Hyperluter con tres métodos rivales: Instantid; el adaptador IP mencionado anteriormente, en forma del marco IP-Adapter-FaceID-Portrait; y el pulido citado anteriormente. Se utilizaron semillas, indicaciones y métodos de muestreo consistentes en todos los marcos.
Los autores señalan que los métodos basados en adaptadores (en lugar de basados en Lora) generalmente requieren escalas de guía (CFG) sin clasificadores más bajos, mientras que Lora (incluida Hyperlum) es más permisiva a este respecto.
Entonces, para una comparación justa, los investigadores utilizaron la variante de punto de control SDXL sintonizado con código abierto Hello World de Hello de Leosam a través de las pruebas. Para las pruebas cuantitativas, se utilizó el conjunto de datos de imagen Unsplash-50.
Métrica
Para un punto de referencia de fidelidad, los autores midieron la similitud facial utilizando distancias de coseno entre los incrustaciones de imagen de clip (Clip-I) y las incrustaciones de identidad separadas (SIM ID) extraídas a través de la cara curricular, un modelo no utilizado durante el entrenamiento.
Cada método generó cuatro disparos en la cabeza de alta resolución por identidad en el conjunto de pruebas, con resultados promediados.
La capacidad de edición se evaluó en comparación con las puntuaciones de Clip-I entre salidas con y sin los módulos de identidad (para ver cuánto alteraron las restricciones de identidad la imagen); y mediante la medición de la alineación de texto de imagen de clip (Clip-T) en diez variaciones de solicitud de cobertura peinado, accesorios, ropay fondos.
Los autores incluyeron el modelo de base Arc2face en las comparaciones, una línea de base entrenada en subtítulos fijos y regiones faciales recortadas.
Para la hiperlora, se probaron dos variantes: una usando solo el módulo ID-Lora, y otro usando ID y Base-Lora, con este último ponderado en 0.4. Mientras que la base-lora mejoró la fidelidad, se limitó ligeramente a la edición.
Resultados para la comparación cuantitativa inicial.
De las pruebas cuantitativas, comentan los autores:
‘Base-Lora ayuda a mejorar la fidelidad, pero limita la capacidad de edición. Aunque nuestro diseño desacopla la imagen característica en diferentes loras, es difícil evitar la filtración mutuamente. Por lo tanto, podemos ajustar el peso de Base-Lora para adaptarse a diferentes escenarios de aplicación.
‘Nuestra hiperlora (Full e ID) logra la mejor y la segunda mejor fidelidad de la cara, mientras que Instantid muestra superioridad en la similitud de identificación de la cara pero la fidelidad inferior de la cara.
“Ambas métricas deben considerarse juntas para evaluar la fidelidad, ya que la similitud de ID de la cara es más abstracta y la fidelidad de la cara refleja más detalles”.
En pruebas cualitativas, las diversas compensaciones involucradas en la propuesta esencial se destacan (tenga en cuenta que no tenemos espacio para reproducir todas las imágenes para obtener resultados cualitativos y remitir al lector al documento fuente para obtener más imágenes con una mejor resolución)::
Comparación cualitativa. De arriba a abajo, las indicaciones utilizadas fueron: ‘camisa blanca’ y ‘orejas de lobo’ (ver documento para ejemplos adicionales).
Aquí los autores comentan:
‘La piel de los retratos generados por IP-Adapter e Instantid tiene una aparente textura generada por IA, que está un poco (sobresaturada) y lejos del fotorrealismo.
‘Es una deficiencia común de los métodos basados en adaptadores. Pulid mejora este problema debilitando la intrusión al modelo base, superando el adaptador IP e instantil, pero aún sufriendo de desenfoque y falta de detalles.
“En contraste, Lora modifica directamente los pesos del modelo base en lugar de introducir módulos de atención adicionales, generalmente generando imágenes altamente detalladas y fotorrealistas”.
Los autores sostienen que debido a que la hiperlora modifica los pesos del modelo base directamente en lugar de confiar en módulos de atención externos, conserva la capacidad no lineal de los métodos tradicionales basados en Lora, que potencialmente ofrece una ventaja en la fidelidad y permite una captura mejorada de detalles sutiles como el color de la alumna.
En las comparaciones cualitativas, el documento afirma que los diseños de Hyperlón eran más coherentes y mejor alineados con las indicaciones, y similares a los producidos por Pulid, mientras más fuertes que Instantid o IP-Adapter (que ocasionalmente no lograron las indicaciones o produjeron composiciones antigráficas).
Otros ejemplos de generaciones Controlnet con Hyperluter.
Conclusión
El flujo constante de varios sistemas de personalización de un solo disparo en los últimos 18 meses ha adquirido, por ahora, una calidad de desesperación. Muy pocas de las ofrendas han hecho un avance notable en el estado del arte; Y aquellos que lo han avanzado un poco tienden a tener demandas de capacitación exorbitantes y/o demandas de inferencia de inferencia extremadamente complejas o de recursos.
Si bien el propio régimen de entrenamiento de Hyperlora es tan inductor de Gulp como muchas entradas similares recientes, al menos uno termina con un modelo que puede manejar a esto Personalización fuera de la caja.
A partir del material complementario del documento, observamos que la velocidad de inferencia de la hiperlora es mejor que el adaptador IP, pero peor que los otros dos métodos anteriores, y que estas cifras se basan en una GPU NVIDIA V100, que no es un hardware de consumidor típico (aunque más nueva ” NVIDIA ‘doméstica’ puede coincidir o superar esta V100 32GB de VRAM).
Las velocidades de inferencia de los métodos competitivos, en milisegundos.
Es justo decir que la personalización de disparo cero sigue siendo un problema sin resolver desde un punto de vista práctico, ya que los requisitos de hardware significativos de Hyperlora están posiblemente en desacuerdo con su capacidad para producir un modelo de base único verdaderamente a largo plazo.
* Representando 640GB o 1280GB de VRAM, dependiendo de qué modelo se usó (esto no se especifica)
Publicado por primera vez el lunes 24 de marzo de 2025