Hacia Loras que pueden sobrevivir a las actualizaciones de la versión del modelo

-

spot_img

Desde mi reciente cobertura del crecimiento en el hobbyista Hunyuan Video Loras (pequeños archivos capacitados que pueden inyectar personalidades personalizadas en modelos multimillonario de texto a video a video y imagen a video), el número de loras relacionadas disponibles en el Civit Community ha aumentado en un 185%.

A pesar del hecho de que no hay formas particularmente fáciles o de bajo esfuerzo de hacer un video de Hunyuan Lora, el catálogo de celebridades y loras temáticas en Civit está creciendo a diario. Fuente: https://civitai.com/

La misma comunidad que está luchando por aprender a producir estas ‘personalidades complementarias’ para el video de Hunyuan (HV) también está ulcerando para el lanzamiento prometido de una funcionalidad de imagen a video (I2V) en el video de Hunyuan.

Con respecto a la síntesis de imagen humana de código abierto, este es un gran problema; Combinado con el crecimiento de Hunyuan Loras, podría permitir a los usuarios transformar las fotos de las personas en videos de una manera que no erosiona su identidad a medida que se desarrolla el video, que actualmente es el caso en toda la imagen de vanguardia- Generadores de videos, incluidos Kling, Kauber y la muy celebrada RunwayML:

Haga clic para jugar. Una generación de imagen a video del modelo Turbo Gen 3 de última generación de Runwayml. Sin embargo, en común con todos los modelos rivales similares y menores, no puede mantener una identidad consistente cuando el sujeto se aleja de la cámara, y las características distintas de la imagen inicial se convierten en una “mujer de difusión genérica”. Fuente: https://app.runwayml.com/

Al desarrollar una Lora personalizada para la personalidad en cuestión, uno podría, en un flujo de trabajo HV I2V, usar una foto real de ellos como punto de partida. Esta es una ‘semilla’ mucho mejor que enviar un número aleatorio al espacio latente del modelo y conformarse con los resultados del escenario semántico. Uno podría usar la lora, o múltiples loras, para mantener la consistencia de identidad, peinados, ropa y otros aspectos fundamentales de una generación.

Potencialmente, la disponibilidad de dicha combinación podría representar uno de los cambios más épocales en la IA generativa desde el lanzamiento de difusión estable, con una potencia generativa formidable entregada a los entusiastas de la fuente abierta, sin la regulación (o la ‘guardia’, si lo prefiere) Proporcionado por los censores de contenido en la cosecha actual de sistemas populares de Gen Vid.

Mientras escribo, Hunyuan Image-to-Video es un “para hacer” desatado en el video de Hunyuan Github Repo, con la comunidad aficionada que informa (anecdóticamente) un comentario de discordia de un desarrollador de Hunyuan, que aparentemente declaró que la liberación de esta funcionalidad ha sido retrocedido hasta algún tiempo después en Q1 debido a que el modelo es “demasiado sin censura”.

La lista de verificación de lanzamiento de funciones oficial para Hunyuan Video. Fuente: https://github.com/tencent/hunyuanvideo?tab=readme-ov-file#-open-source-plan

Preciso o no, los desarrolladores de repositorio han entregado sustancialmente el resto de la lista de verificación de Hunyuan y, por lo tanto, Hunyuan I2V parece llegar eventualmente, ya sea censurado, sin censura o de alguna manera ‘desbloqueable’.

Leer  Co-Cientista de AI de Google vs. Investigación profunda de Openai versus investigación profunda de Perplexity: una comparación de los agentes de investigación de IA

Pero como podemos ver en la lista anterior, la versión I2V aparentemente es un modelo separado por completo, lo que hace que sea bastante improbable que cualquiera de la floreciente cosecha actual de HV loras en Civit y en otros lugares funcione con él.

En este (por ahora) escenario predecible, los marcos de entrenamiento de Lora, como Musubi Tuner y OnTrainer, se reiniciarán o se reiniciarán con respecto a apoyar el nuevo modelo. Mientras tanto, una o dos de las luminarias de IA de YouTube más expertas en tecnología (y emprendedor) rescatarán sus soluciones a través de Patreon hasta que la escena se ponga al día.

Fatiga de actualización

Casi nadie experimenta la fatiga de actualización tanto como una lora o entusiasta del ajuste, porque el ritmo rápido y competitivo de cambio en la IA generativa fomenta las fundiciones del modelo, como la estabilidad. Laboradores de estabilidad. mejores modelos a la frecuencia viable máxima.

Dado que estos modelos nuevos y mejorados tendrán al menos diferentes prejuicios y pesos, y más comúnmente tendrán una escala y/o arquitectura diferentes, esto significa que la comunidad de ajuste tiene que sacar sus conjuntos de datos nuevamente y repetir el Proceso de capacitación agotador para la nueva versión.

Por esta razón, una multiplicidad de tipos de versión Lora de difusión estable está disponible en Civit:

La ruta de actualización, visualizada en las opciones de filtro de búsqueda en Civit.ai

Dado que ninguno de estos modelos lora livianos es interoperable con versiones de modelos más altas o inferiores, y dado que muchos de ellos tienen dependencias de las fusiones y ajustes finos populares que se adhieren a un modelo más antiguo, una parte significativa de la comunidad tiende a seguir Un lanzamiento de ‘legado’, de la misma manera que la lealtad del cliente a Windows XP persistió años después de que terminó el apoyo anterior oficial.

Adaptarse al cambio

Este tema viene a la mente debido a un nuevo artículo de la investigación de Qualcomm AI que afirma haber desarrollado un método por el cual las LORAS existentes pueden “actualizar” a una versión modelo recientemente lanzada.

Ejemplo de conversión de loras en las versiones del modelo. Fuente: https://arxiv.org/pdf/2501.16559

Esto no significa que el nuevo enfoque, titulado LoRA-Xpuede traducirse libremente entre todos los modelos del mismo tipo (es decir, texto a modelos de imagen o modelos de lenguaje grande (LLMS)); Pero los autores han demostrado una transliteración efectiva de un lora de difusión estable v1.5> sdxl, y una conversión de un lora para el modelo Tinyllama 3T basado en texto a Tinyllama 2.5t.

Leer  Los principales modelos de IA se están perdiendo en documentos largos

Lora-X transfiere los parámetros de Lora a través de diferentes modelos base al preservar el adaptador dentro del subespacio del modelo de origen; pero solo en partes del modelo que son adecuadamente similares en las versiones del modelo.

A la izquierda, un esquema para la forma en que el modelo de fuente Lora-X ajusta un adaptador, que luego se ajusta para que se ajuste al modelo de destino. A la derecha, las imágenes generadas por los modelos objetivo SD EFF-V1.0 y SSD-1B, después de aplicar adaptadores transferidos de SD-V1.5 y SDXL sin capacitación adicional.

Si bien esto ofrece una solución práctica para escenarios en los que la reentrenamiento es indeseable o imposible (como un cambio de licencia en los datos de capacitación originales), el método está restringido a arquitecturas de modelos similares, entre otras limitaciones.

Aunque esta es una incursión rara en un campo poco estudiado, no examinaremos este documento en profundidad debido a las numerosas deficiencias de Lora-X, como lo demuestran los comentarios de sus críticos y asesores en Open Review.

La dependencia del método en la similitud del subespacio restringe su aplicación a modelos estrechamente relacionados, y los autores han admitido en el foro de revisión que Lora-X no puede transferirse fácilmente a través de arquitecturas significativamente diferentes.

Otros enfoques de Peft

La posibilidad de hacer que Loras sea más portátil en todas las versiones es un pequeño pero interesante hilo de estudio en la literatura, y la principal contribución que Lora-X hace a esta búsqueda es su afirmación de que no requiere capacitación. Esto no es estrictamente cierto, si uno lee el documento, pero requiere la menor capacitación de todos los métodos anteriores.

Lora-X es otra entrada en la canon de los métodos de ajuste fino (PEFT) de los parámetros, que abordan el desafío de adaptar grandes modelos previamente capacitados a tareas específicas sin reentrenamiento extenso. Este enfoque conceptual tiene como objetivo modificar un número mínimo de parámetros mientras se mantiene el rendimiento.

Entre estos son notables:

Administrador X

El marco del adaptador X transfiere adaptadores ajustados a través de modelos con una cierta cantidad de reentrenamiento. El sistema tiene como objetivo habilitar los módulos de plug-and-play pre-entrenados (como Controlnet y Lora) de un modelo de difusión base (es decir, difusión estable v1.5) para funcionar directamente con un modelo de difusión actualizado como SDXL sin reestructurar, de manera efectiva Actuar como un ‘actualizador universal’ para complementos.

El sistema logra esto entrenando una red adicional que controla el modelo actualizado, utilizando una copia congelada del modelo base para preservar los conectores de complementos:

Esquema para X-Adapter. Fuente: https://arxiv.org/pdf/2312.02238

El adaptador X se desarrolló y probó originalmente para transferir adaptadores de SD1.5 a SDXL, mientras que Lora-X ofrece una variedad más amplia de transliteraciones.

Leer  Microsoft resucitará la planta de energía nuclear de Three Mile Island en un acuerdo exclusivo

Dora (adaptación de bajo rango de peso descompuesto)

Dora es un método mejorado mejorado que mejora sobre Lora mediante el uso de una estrategia de descomposición de peso que se asemeja más a un ajuste completo:

Dora no solo intenta copiar un adaptador en un entorno congelado, como lo hace Lora-X, sino que cambia los parámetros fundamentales de los pesos, como la magnitud y la dirección. Fuente: https://arxiv.org/pdf/2402.09353

Dora se enfoca en mejorar el proceso de ajuste fino en sí, al descomponer los pesos del modelo en magnitud y dirección (ver imagen arriba). En su lugar, Lora-X se enfoca en habilitar la transferencia de parámetros fina existentes entre diferentes modelos base

Sin embargo, el enfoque Lora-X adapta el proyección Las técnicas desarrolladas para Dora, y en las pruebas contra este sistema anterior, reclama un puntaje de Dino mejorado.

FourA (adaptación de bajo rango de Fourier)

Publicado en junio de 2024, el método FourA viene, como Lora-X, de Qualcomm AI Research, e incluso comparte algunas de sus indicaciones y temas de pruebas.

Ejemplos de colapso de distribución en Lora, del artículo FourA 2024, utilizando el modelo Realistic Vision 3.0 entrenado con Lora y FourA para adaptadores de estilo ‘Blue Fire’ y ‘Origami’, en cuatro semillas. Las imágenes de Lora exhiben colapso de distribución y diversidad reducida, mientras que FourA genera salidas más variadas. Fuente: https://arxiv.org/pdf/2406.08798

Foura se enfoca en mejorar la diversidad y la calidad de las imágenes generadas al adaptar a Lora en el dominio de frecuencia, utilizando un enfoque de transformación de Fourier.

Aquí, nuevamente, Lora-X pudo lograr mejores resultados que el enfoque basado en Fourier de FourA.

Aunque ambos marcos se encuentran dentro de la categoría PEFT, tienen casos de uso muy diferentes y enfoques; En este caso, FourA es posiblemente ‘compensar los números’ para una ronda de pruebas con rivales limitados para los que se involucran para los autores del nuevo artículo.

SVD

SVDIFF también tiene diferentes objetivos para Lora-X, pero está fuertemente aprovechado en el nuevo artículo. SVDIFF está diseñado para mejorar la eficiencia del ajuste fino de los modelos de difusión, y modifica directamente los valores dentro de las matrices de peso del modelo, al tiempo que mantiene los vectores singulares sin cambios. SVDIFF utiliza SVD truncado, modificando solo los valores más grandes, para ajustar los pesos del modelo.

Este enfoque utiliza una técnica de aumento de datos llamada Corte-mezcla:

La generación de múltiples sujetos funciona como un sistema de aislamiento de concepto en SVDIFF. Fuente: https://arxiv.org/pdf/2303.11305

CUT-MIX-ONMIX está diseñado para ayudar al modelo de difusión a aprender múltiples conceptos distintos sin mezclarlos. La idea central es tomar imágenes de diferentes temas y concatenarlas en una sola imagen. Luego, el modelo está entrenado con indicaciones que describen explícitamente los elementos separados en la imagen. Esto obliga al modelo a reconocer y preservar conceptos distintos en lugar de mezclarlos.

Durante el entrenamiento, un término de regularización adicional ayuda a prevenir la interferencia de sujetos cruzados. La teoría de los autores sostiene que esto facilita la generación mejorada de múltiples sujetos, donde cada elemento permanece visualmente distinto, en lugar de fusionarse juntos.

SVDIFF, excluido de la ronda de prueba Lora-X, tiene como objetivo crear un espacio de parámetros compacto. Lora-X, en cambio, se centra en la transferibilidad de los parámetros de Lora en diferentes modelos base al operar dentro del subespacio del modelo original.

Conclusión

Los métodos discutidos aquí no son los únicos habitantes de PEFT. Otros incluyen Qlora y Qa-Lora; Ajuste de prefijo; Ajuste de inmediato; y ajuste del adaptador, entre otros.

La ‘Lora actualizable’ es, quizás, una búsqueda alquímica; Ciertamente, no hay nada inmediatamente en el horizonte que impida que los modeladores de Lora tengan que arrastrar sus conjuntos de datos antiguos nuevamente para la última y más grande liberación de pesas. Si existe un posible estándar de prototipo para la revisión de pesas, capaz de sobrevivir cambios en la arquitectura y los parámetros de globo entre las versiones del modelo, aún no ha surgido en la literatura, y deberá seguir siendo extraído de los datos por modelo. .

Publicado por primera vez el jueves 30 de enero de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares