Enseñar a la IA a dar mejores críticas de video

-

spot_img

Si bien los grandes modelos en idioma de visión (LVLM) pueden ser asistentes útiles para interpretar algunos de los envíos más arcanos o desafiantes en la literatura de visión por computadora, hay un área donde están obstaculizados: determinar los méritos y la calidad subjetiva de cualquier Ejemplos de video que acompañan nuevos documentos*.

Este es un aspecto crítico de una sumisión, ya que los documentos científicos a menudo apuntan a generar emoción a través de textos o imágenes convincentes, o ambos.

Pero en el caso de los proyectos que involucran síntesis de video, los autores deben mostrar la producción real de video o arriesgarse a que su trabajo desestima; Y es en estas manifestaciones que la brecha entre las afirmaciones audaces y el rendimiento del mundo real se hace evidente con mayor frecuencia.

Leí el libro, no vi la película

Actualmente, la mayoría de los modelos de lenguaje grande (LLM) populares basados ​​en API y los grandes modelos en idioma de visión (LVLMS) no participarán en el análisis de video directamente de cualquier maneracualitativo o de otro tipo. En cambio, solo pueden analizar las transcripciones relacionadas y, tal vez, los hilos de comentarios y otros estrictamente texto-Material adjunto basado.

Las diversas objeciones de GPT-4O, Google Géminis y perplejidad, cuando se les pide que analicen directamente el video, sin recurrir a transcripciones u otras fuentes basadas en texto.

Sin embargo, un LLM puede ocultar o negar su incapacidad para ver videos, a menos que los llame:

Al haber pedido que proporcione una evaluación subjetiva de los videos asociados de un nuevo trabajo de investigación, y después de haber fingido una opinión real, ChatGPT-4O finalmente confiesa que realmente no puede ver el video directamente.

Aunque modelos como ChatGPT-4O son multimodales y al menos pueden analizar individual Fotos (como un marco extraído de un video, ver la imagen de arriba), hay algunos problemas incluso con esto: en primer lugar, hay escasas bases para dar crédito a la opinión cualitativa de un LLM, sobre todo porque los LLM son propensos a ‘personas que agradecen a las personas’ en lugar de sincero discurso.

En segundo lugar, es probable que muchos, si no la mayoría de los problemas de video generado tengan un temporal aspecto que se pierde completamente en una toma de cuadros, por lo que el examen de marcos individuales no tiene ningún propósito.

Finalmente, el LLM solo puede dar un supuesto ‘juicio de valor’ basado (una vez más) en haber absorbido el conocimiento basado en el texto, por ejemplo, con respecto a las imágenes de Deepfake o la historia del arte. En tal caso, el conocimiento del dominio capacitado permite que la LLM correlacione las cualidades visuales analizadas de una imagen con incrustaciones aprendidas basadas en humano conocimiento:

El proyecto FakeVLM ofrece una detección de Deepfake dirigido a través de un modelo especializado de lenguaje de visión multimodal. Fuente: https://arxiv.org/pdf/2503.14905

Esto no quiere decir que un LLM no pueda obtener información directamente de un video; Por ejemplo, con el uso de sistemas AI adjuntos como YOLO, un LLM podría identificar objetos en un video, o podría hacerlo directamente, si se capacita para un número superior de funcionalidades multimodales.

Pero la única forma en que un LLM podría evaluar un video subjetivamente (es decir, ‘Eso no me parece real’) es a través de la aplicación de una métrica basada en la función de pérdida que se sabe que refleja bien la opinión humana, o de lo contrario está directamente informado por la opinión humana.

Las funciones de pérdida son herramientas matemáticas utilizadas durante la capacitación para medir cuán lejos están las predicciones de un modelo de las respuestas correctas. Proporcionan comentarios que guían el aprendizaje del modelo: cuanto mayor sea el error, mayor será la pérdida. A medida que avanza el entrenamiento, el modelo ajusta sus parámetros para reducir esta pérdida, mejorando gradualmente su capacidad para hacer predicciones precisas.

Las funciones de pérdida se utilizan tanto para regular el entrenamiento de los modelos como para calibrar los algoritmos que están diseñados para evaluar el resultado de los modelos de IA (como la evaluación del contenido fotorrealista simulado de un modelo de video generativo).

Leer  Los ministros de EE. UU. y el Reino Unido se reúnen para establecer un acuerdo bilateral sobre seguridad de la IA

Visión condicional

Una de las funciones de métricas/pérdidas más populares es la distancia de inicio de Fréchet (FID), que evalúa la calidad de las imágenes generadas midiendo la similitud entre su distribución (lo que aquí significa ‘cómo las imágenes se extienden o agrupan por características visuales ‘) y el de las imágenes reales.

Específicamente, FID calcula la diferencia estadística, usando medias y covarianzas, entre características extraídas de ambos conjuntos de imágenes utilizando la red de clasificación V3 de inicio (a menudo criticada). Una puntuación FID más baja indica que las imágenes generadas son más similares a las imágenes reales, lo que implica una mejor calidad visual y diversidad.

Sin embargo, FID es esencialmente comparativo, y posiblemente de naturaleza autorreferencial. Para remediar esto, el enfoque de distancia condicional de Fréchet (CFD, 2021) posterior difiere de FID comparando imágenes generadas con imágenes reales y evaluando una puntuación basada en qué tan bien los conjuntos coinciden con un coincidencia y condición adicionalcomo una etiqueta de clase (inevitablemente subjetiva) o imagen de entrada.

De esta manera, CFID explica cómo las imágenes con precisión cumplen con las condiciones previstas, no solo su realismo o diversidad general entre ellos.

Ejemplos de la excursión CFD 2021. SOurce: https://github.com/michael-soloveitchik/cfid/

CFD sigue una tendencia reciente hacia la interpretación humana cualitativa para hornear en funciones de pérdida y algoritmos métricos. Aunque un enfoque tan centrado en el ser humano garantiza que el algoritmo resultante no estará “al alma” o meramente mecánico, se presenta al mismo tiempo una serie de problemas: la posibilidad de sesgo; la carga de actualizar el algoritmo en línea con las nuevas prácticas, y el hecho de que esto eliminará la posibilidad de estándares comparativos consistentes durante un período de años en todos los proyectos; y limitaciones presupuestarias (menos contribuyentes humanos harán que las determinaciones sean más engañosas, mientras que un número más alto podría evitar actualizaciones útiles debido al costo).

Cfred

Esto nos lleva a un nuevo artículo de los Estados Unidos que aparentemente ofrece Distancia condicional de Fréchet (CFRED), una versión novedosa de CFD que está diseñada para reflejar mejor las preferencias humanas mediante la evaluación de la calidad visual y la alineación de imágenes de texto

Resultados parciales del nuevo documento: clasificaciones de imágenes (1–9) por diferentes métricas para el mensaje “Una sala de estar con un sofá y una computadora portátil que descansa en el sofá”. Green destaca el modelo superior con calificación humana (flujo.1-dev), púrpura el más bajo (SDV1.5). Solo Cfred coincide con las clasificaciones humanas. Consulte el documento de origen para obtener resultados completos, que no tenemos espacio para reproducir aquí. Fuente: https://arxiv.org/pdf/2503.21721

Los autores argumentan que los métodos de evaluación existentes para la síntesis de texto a imagen, como la puntuación de inicio (IS) y FID, se alinean mal con el juicio humano porque solo miden la calidad de la imagen sin considerar cómo las imágenes coinciden con sus indicaciones:

‘Por ejemplo, considere un conjunto de datos con dos imágenes: una de un perro y otro de un gato, cada uno combinado con su mensaje correspondiente. Un modelo perfecto de texto a imagen que intercambia por error estas asignaciones (es decir, que generan un gato para el aviso de perro y viceversa) lograría casi cero FID ya que se mantiene la distribución general de gatos y perros, a pesar de la desalineación con las indicaciones previstas.

“Mostramos que CFRED captura una mejor evaluación de calidad de imagen y acondicionamiento en el texto de entrada y da como resultado una mejor correlación con las preferencias humanas”.

Las pruebas del documento indican que la métrica propuesta por los autores, CFRED, logra constantemente una correlación más alta con las preferencias humanas que FID, FDDINOV2, Clipscore y CMMD en tres conjuntos de datos de referencia (Partiprompts, HPDV2 y Coco).

Concepto y método

Los autores señalan que el estándar de oro actual para evaluar los modelos de texto a imagen implica la recopilación de datos de preferencias humanas a través de comparaciones de origen público, similares a los métodos utilizados para modelos de idiomas grandes (como el LMSYS Arena).

Leer  Meta reanuda la capacitación de IA utilizando datos de usuarios de la UE

Por ejemplo, el Partiprompts Arena utiliza 1.600 indicaciones en inglés, presentando a los participantes pares de imágenes de diferentes modelos y pidiéndoles que seleccionen su imagen preferida.

Del mismo modo, la tabla de clasificación Arena de texto a imagen emplea comparaciones de usuarios de los resultados del modelo para generar clasificaciones a través de puntajes ELO. Sin embargo, la recopilación de este tipo de datos de evaluación humana es costoso y lento, lo que lidera algunas plataformas, como la arena de Partiprompts, para dejar de actualizar por completo.

El análisis de análisis de análisis artificiales en la placa de clasificación, que clasifica a los líderes actualmente estimados en IA visual generativa. Fuente: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard

Aunque existen métodos alternativos entrenados en datos históricos de preferencia humana, su efectividad para evaluar modelos futuros sigue siendo incierto, porque las preferencias humanas evolucionan continuamente. En consecuencia, las métricas automatizadas como FID, Clipscore y el CFRED propuesto por los autores parecen seguir siendo herramientas de evaluación cruciales.

Los autores suponen que las imágenes reales y generadas condicionadas en un aviso siguen a las distribuciones gaussianas, cada una definida por medios condicionales y covarianzas. CFRED mide la distancia de fréchet esperada a través de las indicaciones entre estas distribuciones condicionales. Esto se puede formular directamente en términos de estadísticas condicionales o combinando estadísticas incondicionales con covarianzas cruzadas que involucran el aviso.

Al incorporar el aviso de esta manera, CFRED puede evaluar tanto el realismo de las imágenes como su consistencia con el texto dado.

Datos y pruebas

Para evaluar qué tan bien CFRED se correlaciona con las preferencias humanas, los autores utilizaron clasificaciones de imágenes de múltiples modelos que se solicitan con el mismo texto. Su evaluación se basó en dos fuentes: la puntuación de preferencia humana V2 (HPDV2) conjunto de pruebas, que incluye nueve imágenes generadas y una imagen de la verdad de Coco tierra por aviso; y el Arena Partiprompts mencionada anteriormente, que contiene salidas de cuatro modelos en 1.600 indicaciones.

Los autores recopilaron los puntos de datos de la arena dispersos en un solo conjunto de datos; En los casos en que la imagen real no se clasificó más en las evaluaciones humanas, utilizaron la imagen mejor calificada como referencia.

Para probar modelos más nuevos, tomaron muestras de 1,000 indicaciones de los conjuntos de trenes y validación de Coco, asegurando que no se superponga con HPDV2, y generaron imágenes utilizando nueve modelos de la tabla de clasificación de Arena. Las imágenes originales de Coco sirvieron como referencias en esta parte de la evaluación.

El enfoque CFRED se evaluó a través de cuatro métricas estadísticas: FID; Fddinov2; Clipscore; y cmmd. También fue evaluado contra cuatro métricas aprendidas entrenadas en datos de preferencia humana: puntaje estético; Imagereward; HPSV2; y MPS.

Los autores evaluaron la correlación con el juicio humano desde una perspectiva de clasificación y puntuación: para cada métrica, se informaron puntajes del modelo y se calcularon las clasificaciones para su alineación con los resultados de la evaluación humana, con CFRED usando Dinov2-G/14 para incrustaciones de imágenes y el codificador de texto OpenClip Convnext-B para las incrustaciones de texto †.

Trabajo previo sobre el aprendizaje de las preferencias humanas El rendimiento midió el rendimiento utilizando la precisión de rango por ítem, que calcula la precisión de clasificación para cada par de texto de imagen antes de promediar los resultados.

En su lugar, los autores evaluaron CFRED utilizando un global precisión de rango, que evalúa el rendimiento general de clasificación en el conjunto de datos completo; Para las métricas estadísticas, obtuvieron clasificaciones directamente de puntajes brutos; Y para las métricas entrenadas en preferencias humanas, primero promediaron las clasificaciones asignadas a cada modelo en todas las muestras, luego determinaron la clasificación final de estos promedios.

Las pruebas iniciales utilizaron diez marcos: Glide; PALMA DE COCO; Fusedream; Dalle 2; Vqgan+clip; Cogview2; Difusión estable V1.4; Vq-difusión; Difusión estable v2.0; y Lafite.

Rankings y puntajes de modelos en el conjunto de pruebas HPDV2 utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagereward, HPSV2 y MPS). Los mejores resultados se muestran en negrita, el segundo mejor están subrayados.

De los resultados iniciales, los autores comentan:

Leer  ¿Qué tan buenos son los agentes de IA en la investigación real? Dentro del informe del banco de investigación profunda

‘Cfred logra la alineación más alta con las preferencias humanas, alcanzando una correlación de 0.97. Entre las métricas estadísticas, CFRED alcanza la correlación más alta y es comparable a HPSV2 (0.94), un modelo entrenado explícitamente en preferencias humanas. Dado que HPSV2 fue entrenado en el conjunto de capacitación HPSV2, que incluye cuatro modelos del conjunto de pruebas, y empleó a los mismos anotadores, codifica inherentemente sesgos específicos de preferencia humana del mismo entorno.

‘En contraste, CFRED logra una correlación comparable o superior con la evaluación humana sin ningún entrenamiento de preferencia humana.

“Estos resultados demuestran que CFRED proporciona clasificaciones más confiables en diversos modelos en comparación con las métricas automáticas estándar y las métricas capacitadas explícitamente en los datos de preferencias humanas”.

Entre todas las métricas evaluadas, CFRED logró la precisión de rango más alta (91.1%), lo que demuestra, los autores sostienen, una fuerte alineación con los juicios humanos.

HPSV2 siguió con 88.9%, mientras que FID y FDDINOV2 produjeron puntajes competitivos de 86.7%. Aunque las métricas capacitadas en datos de preferencia humana generalmente se alinean bien con las evaluaciones humanas, CFRED demostró ser el más robusto y confiable en general.

A continuación vemos los resultados de la segunda ronda de prueba, esta vez en Partiprompts Arena, usando SDXL; Kandinsky 2; Würstchen; y Karlo V1.0.

Rankings y puntajes de modelos en Partiprompt utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagen de imagen y MPS). Los mejores resultados están en negrita, el segundo mejor está subrayado.

Aquí el documento dice:

‘Entre las métricas estadísticas, CFRED logra la correlación más alta con las evaluaciones humanas (0.73), con FID y FDDINOV2 alcanzando una correlación de 0.70. En contraste, la puntuación de clip muestra una correlación muy baja (0.12) con juicios humanos.

‘En la categoría entrenada por preferencia humana, HPSV2 tiene la alineación más fuerte, logrando la correlación más alta (0.83), seguida de imagereward (0.81) y MPS (0.65). Estos resultados destacan que, si bien CFRED es una métrica automática robusta, HPSV2 se destaca como el más efectivo para capturar las tendencias de evaluación humana en el arena de Partiprompts ‘.

Finalmente, los autores realizaron una evaluación en el conjunto de datos de Coco utilizando nueve modelos modernos de texto a imagen: flux.1 (dev); Playgroundv2.5; Janus Pro; y variantes de difusión estable SDV3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 y 1.5.

Las clasificaciones de preferencias humanas se obtuvieron de la tabla de clasificación de texto a imagen, y se dieron como puntajes ELO:

Las clasificaciones de modelos en las indicaciones de Coco muestreadas al azar utilizando métricas automáticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagen de imagen, HPSV2 y MPS). Una precisión de rango por debajo de 0.5 indica más discordante que los pares concordantes, y los mejores resultados están en negrita, el segundo mejor se subrayan.

Con respecto a esta ronda, los investigadores indican:

‘Entre las métricas estadísticas (FID, FDDINOV2, CLIP, CMMD y nuestro CFRED propuesto), solo CFRED exhibe una fuerte correlación con las preferencias humanas, logrando una correlación de 0.33 y una precisión de rango no trivial de 66.67%. ‘Este resultado coloca a CFRED como la tercera métrica más alineada en general, superada solo por las métricas de preferencia humana -entrenada, HPSV2 y MPS.

‘En particular, todas las demás métricas estadísticas muestran una alineación considerablemente más débil con las clasificaciones ELO y, como resultado, invertir las clasificaciones, lo que resulta en un Acc ACC. Por debajo de 0.5.

“Estos hallazgos destacan que CFRED es sensible tanto a la fidelidad visual como a la consistencia inmediata, reforzando su valor como una alternativa práctica y sin entrenamiento para la generación de texto a imagen de la evaluación comparativa”.

Los autores también probaron el inicio V3 como una columna vertebral, llamando la atención sobre su ubicuidad en la literatura, y descubrieron que InceptionV3 se desempeñó razonablemente, pero fue superado por los backbones basados ​​en transformadores como Dinov2-L/14 y Vit-L/16, que se alineó más consistentemente con las clasificaciones humanas, y ellos contienden que esto respalda la reemplazo de inicio en las evaluaciones modernas.

Las tasas de ganar con qué frecuencia las clasificaciones de cada imagen de cada imagen coincidían con las verdaderas clasificaciones derivadas de humanos en el conjunto de datos de Coco.

Conclusión

Está claro que si bien las soluciones humanas del bucle son el enfoque óptimo para el desarrollo de funciones métricas y de pérdida, la escala y la frecuencia de las actualizaciones necesarias para dichos esquemas continuarán haciéndolos impracticales, tal vez hasta el momento en que la participación pública generalizada en las evaluaciones generalmente se incentiva; o, como ha sido el caso de Captchas, aplicado.

La credibilidad del nuevo sistema de los autores aún depende de su alineación con el juicio humano, aunque en uno elimine más que muchos enfoques recientes de participación humana; Y la legitimidad de Cfred, por lo tanto, sigue siendo todavía en los datos de preferencia humana (obviamente, ya que sin tal punto de referencia, la afirmación de que CFRED refleja la evaluación de forma humana no sería inocente).

Podría decirse que, consagrar nuestros criterios actuales para el ‘realismo’ en el resultado generativo en una función métrica podría ser un error a largo plazo, ya que nuestra definición para este concepto está actualmente en asalto de la nueva ola de sistemas de IA generativos, y se establece para una revisión frecuente y significativa.

* En este punto, normalmente incluiría un ejemplo de video ilustrativo ejemplar, tal vez de una presentación académica reciente; Pero eso sería de espíritu malvado: cualquiera que haya pasado más de 10-15 minutos que rastrean la producción generativa de IA de Arxiv ya se encontrará con videos suplementarios cuya calidad subjetivamente pobre indica que la presentación relacionada no será aclamada como un documento histórico.

Se utilizaron un total de 46 modelos de columna vertebral de imagen en los experimentos, no todos los cuales se consideran en los resultados gráficos. Consulte el apéndice del documento para obtener una lista completa; Los que aparecen en las tablas y figuras han sido enumeradas.

Publicado por primera vez el martes 1 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares