Uso de alucinaciones de IA para evaluar el realismo de imágenes

-

spot_img

Una nueva investigación de Rusia propone un método poco convencional para detectar imágenes generadas por IA poco realistas, no mejorando la precisión de los grandes modelos en idioma de visión (LVLM), sino al aprovechar intencionalmente su tendencia a alucinar.

El enfoque novedoso extrae múltiples ‘hechos atómicos’ sobre una imagen que usa LVLMS, luego aplica la inferencia del lenguaje natural (NLI) para medir sistemáticamente las contradicciones entre estas declaraciones, convirtiendo efectivamente las fallas del modelo en una herramienta de diagnóstico para detectar imágenes que desafían el sentido común.

¡Dos imágenes de los Whoops! conjunto de datos junto con declaraciones generadas automáticamente por el modelo LVLM. La imagen izquierda es realista, lo que lleva a descripciones consistentes, mientras que la imagen derecha inusual hace que el modelo alucine, produciendo declaraciones contradictorias o falsas. Fuente: https://arxiv.org/pdf/2503.15948

Pidido evaluar el realismo de la segunda imagen, el LVLM puede ver que algo está mal, ya que el camello representado tiene tres jorobas, lo cual es desconocido en la naturaleza.

Sin embargo, el LVLM inicialmente combina > 2 jorobas con > 2 animalesdado que esta es la única forma en que podría ver tres jorobas en una ‘imagen de camello’. Luego procede a alucinar algo aún más improbable que tres jorobas (es decir, ‘dos ​​cabezas’) y nunca detalla lo que parece haber desencadenado sus sospechas: la joroba extra improbable.

Los investigadores del nuevo trabajo encontraron que los modelos LVLM pueden realizar este tipo de evaluación de forma nativa, y a la par con (o mejores) modelos que han sido ajustados para una tarea de este tipo. Dado que el ajuste es complicado, costoso y bastante frágil en términos de aplicabilidad aguas abajo, el descubrimiento de un uso nativo para uno de los mejores obstáculos de la revolución actual de IA es un giro refrescante para las tendencias generales de la literatura.

Evaluación abierta

La importancia del enfoque, afirman los autores, es que se puede implementar con código abierto marcos. Si bien un modelo avanzado y de alta inversión como ChatGPT puede (el documento admite) potencialmente ofrecer mejores resultados en esta tarea, el valor real discutible de la literatura para la mayoría de nosotros (y especialmente para las comunidades aficionadas y VFX) es la posibilidad de incorporar y desarrollar nuevos ruptores en las implementaciones locales; Por el contrario, todo lo destinado a un sistema de API comercial patentado está sujeto a retiro, aumentos de precios arbitrarios y políticas de censura que tienen más probabilidades de reflejar las preocupaciones corporativas de una empresa que las necesidades y responsabilidades del usuario.

Leer  Laboratorio de agentes: un equipo de investigación virtual de AMD y Johns Hopkins

El nuevo artículo se titula No luche contra las alucinaciones, úselas: estimar el realismo de la imagen usando NLI sobre hechos atómicosy proviene de cinco investigadores en el Instituto de Ciencia y Tecnología Skolkovo (Skoltech), el Instituto de Física y Tecnología de Moscú, y las compañías rusas MTS AI y Airi. El trabajo tiene una página de GitHub que lo acompaña.

Método

¡Los autores usan los gritos israelíes/de EE. UU.! Conjunto de datos para el proyecto:

¡Ejemplos de imágenes imposibles de los gritos! Conjunto de datos. Es notable cómo estas imágenes ensamblan elementos plausibles, y que su improbabilidad debe calcularse en función de la concatenación de estas facetas incompatibles. Fuente: https://whoops-benchmark.github.io/

El conjunto de datos comprende 500 imágenes sintéticas y más de 10,874 anotaciones, diseñadas específicamente para probar el razonamiento de sentido común y la comprensión compositiva de los modelos AI. Fue creado en colaboración con diseñadores encargados de generar imágenes desafiantes a través de sistemas de texto a imagen como MidJourney y la serie Dall-E, produciendo escenarios difíciles o imposibles de capturar naturalmente:

¡Más ejemplos de los Whoops! conjunto de datos. Fuente: https://huggingface.co/datasets/nlphuji/whoops

El nuevo enfoque funciona en tres etapas: primero, se solicita al LVLM (específicamente Llava-V1.6-Mistral-7b) que genere múltiples declaraciones simples, llamadas ‘hechos atómicos’, que describe una imagen. Estas declaraciones se generan utilizando diversas búsqueda de haz, asegurando la variabilidad en las salidas.

Diversa búsqueda de haz produce una mejor variedad de opciones de subtítulos al optimizar para un objetivo acuático de diversidad. Fuente: https://arxiv.org/pdf/1610.02424

A continuación, cada declaración generada se compara sistemáticamente con cualquier otra declaración utilizando un modelo de inferencia de lenguaje natural, que asigna puntajes que reflejan si los pares de declaraciones implican, contradicen o son neutrales entre sí.

Leer  Google puede perder a Chrome, y la primera en la fila de Openai para agarrarlo

Las contradicciones indican alucinaciones o elementos poco realistas dentro de la imagen:

Esquema para la tubería de detección.

Finalmente, el método agrega estos puntajes NLI por pares en un único “puntaje de realidad” que cuantifica la coherencia general de las declaraciones generadas.

Los investigadores exploraron diferentes métodos de agregación, con un enfoque basado en la agrupación que funciona mejor. Los autores aplicaron el algoritmo de agrupación de K-means para separar las puntuaciones de NLI individuales en dos grupos, y el centroide del clúster de menor valor se eligió como la métrica final.

El uso de dos grupos se alinea directamente con la naturaleza binaria de la tarea de clasificación, es decir, distinguiendo imágenes realistas de no realistas. La lógica es similar a simplemente elegir el puntaje más bajo en general; Sin embargo, la agrupación permite que la métrica represente la contradicción promedio en múltiples hechos, en lugar de depender de un solo valor atípico.

Datos y pruebas

¡Los investigadores probaron su sistema en los Whoops! El punto de referencia de línea de base, utilizando divisiones de prueba de rotación (es decir, validación cruzada). Los modelos probados fueron Blip2 Flant5-XL y Blip2 Flant5-XXL en divisiones, y Blip2 Flant5-XXL en formato de disparo cero (es decir, sin entrenamiento adicional).

Para una línea de base de seguimiento de instrucciones, los autores solicitaron los LVLM con la frase ¿Es esto inusual? Explique brevemente con una oración corta ‘que la investigación previa encontró efectiva para detectar imágenes poco realistas.

Los modelos evaluados fueron Llava 1.6 Mistral 7b, Llava 1.6 Vicuna 13B y dos tamaños (7/13 mil millones de parámetros) de InstructBlip.

El procedimiento de prueba se centró en 102 pares de imágenes realistas y poco realistas (‘extrañas’). Cada par estaba compuesto por una imagen normal y una contraparte que desafía el sentido común.

Leer  Empresas tecnológicas de todo el mundo se comprometen a adoptar un nuevo conjunto de normas voluntarias

Tres anotadores humanos etiquetaron las imágenes, llegando a un consenso del 92%, lo que indica un fuerte acuerdo humano sobre lo que constituía la “rareza”. La precisión de los métodos de evaluación se midió por su capacidad para distinguir correctamente entre imágenes realistas y poco realistas.

El sistema se evaluó utilizando la validación cruzada triple, barajando aleatoriamente los datos con una semilla fija. Los autores ajustaron los pesos para los puntajes de implicación (declaraciones que están lógicamente de acuerdo) y puntajes de contradicción (declaraciones que en conflicto lógicamente) durante el entrenamiento, mientras que los puntajes ‘neutrales’ se fijaron en cero. La precisión final se calculó como el promedio en todas las divisiones de prueba.

Comparación de diferentes modelos NLI y métodos de agregación en un subconjunto de cinco hechos generados, medidos por precisión.

Con respecto a los resultados iniciales que se muestran anteriormente, el documento establece:

‘El método (‘ clust ‘) se destaca como uno de los mejores desempeños. Esto implica que la agregación de todos los puntajes de contradicción es crucial, en lugar de centrarse solo en valores extremos. Además, el modelo NLI más grande (NLI-DEBERTA-V3-LARGE) supera a todos los demás para todos los métodos de agregación, lo que sugiere que captura la esencia del problema de manera más efectiva.

Los autores encontraron que los pesos óptimos favorecían constantemente la contradicción sobre la implicación, lo que indica que las contradicciones eran más informativas para distinguir imágenes poco realistas. Su método superó a todos los demás métodos de disparo cero probados, acercándose estrechamente al rendimiento del modelo Blip2 sintonizado:

¡Rendimiento de varios enfoques en los Whoops! punto de referencia. Los métodos ajustados (FT) aparecen en la parte superior, mientras que los métodos de disparo cero (ZS) se enumeran debajo. El tamaño del modelo indica el número de parámetros, y la precisión se usa como métrica de evaluación.

También notaron, de manera inesperada, que InstructBlip funcionó mejor que los modelos Llava comparables dado el mismo aviso. Si bien reconoce la precisión superior de GPT-4O, el artículo enfatiza la preferencia de los autores por demostrar soluciones prácticas de código abierto y, al parecer, puede reclamar razonablemente la novedad para explotar explícitamente las alucinaciones como una herramienta de diagnóstico.

Conclusión

Sin embargo, los autores reconocen la deuda de su proyecto con la salida de Faithscore 2024, una colaboración entre la Universidad de Texas en la Universidad de Dallas y Johns Hopkins.

Ilustración de cómo funciona la evaluación de Faithscore. Primero, se identifican declaraciones descriptivas dentro de una respuesta generada por LVLM. A continuación, estas declaraciones se dividen en hechos atómicos individuales. Finalmente, los hechos atómicos se comparan con la imagen de entrada para verificar su precisión. El texto subrayado destaca el contenido descriptivo objetivo, mientras que el texto azul indica declaraciones alucinadas, lo que permite que Faithscore entregue una medida interpretable de la corrección objetiva. Fuente: https://arxiv.org/pdf/2311.01477

Faithscore mide la fidelidad de las descripciones generadas por LVLM al verificar la consistencia contra el contenido de la imagen, mientras que los métodos del nuevo artículo explotan explícitamente las alucinaciones LVLM para detectar imágenes poco realistas a través de contradicciones en hechos generados utilizando inferencia del lenguaje natural.

El nuevo trabajo depende, naturalmente, de las excentricidades de los modelos de idiomas actuales, y de su disposición al alucinar. Si el desarrollo del modelo alguna vez produzca un modelo completamente no afectante, incluso los principios generales del nuevo trabajo ya no serían aplicables. Sin embargo, esta sigue siendo una perspectiva desafiante.

Publicado por primera vez el martes 25 de marzo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares