Una visión común en la investigación actual de aprendizaje automático es que el aprendizaje automático en sí mismo puede usarse para mejorar la calidad de las anotaciones del conjunto de datos de IA, particularmente los subtítulos de imagen destinados a su uso en modelos de lenguaje de visión (VLMS). Esta línea de pensamiento está impulsada por el alto costo de la anotación humana y la carga adicional de supervisar el rendimiento del anotador.
Podría decirse que este es el equivalente de IA del meme de descarga de más ram ‘de principios de la década de 2000, que satirizó la noción de que una limitación de hardware podría resolverse con una solución basada en software.
También es un problema poco considerado; Si bien los nuevos modelos de IA atraen una atención generalizada en las esferas públicas y comerciales, la anotación a menudo parece ser un detalle trivial en las tuberías de aprendizaje automático, eclipsada por la emoción que rodea marcos más amplios.
En verdad, la capacidad de los sistemas de aprendizaje automático para reconocer y reproducir patrones (el caso de uso central de casi todos los sistemas de IA) depende de la calidad y consistencia de las anotaciones del mundo real: etiquetas y frases creadas o adjudicadas por personas reales, a menudo haciendo juicios subjetivos sobre los puntos de datos individuales en circunstancias no ideales.
Inevitablemente, los sistemas que buscan observar y reproducir patrones en el comportamiento del anotador (y, por lo tanto, reemplazar a los anotadores humanos y facilitar el etiquetado preciso a escala) no pueden esperar tener un buen desempeño en los datos no contenido en los ejemplos tomados de observadores humanos. Nada ‘similar’ es lo mismo, y la equivalencia de dominio cruzado sigue siendo una búsqueda problemática en la visión por computadora.
El “dólar de datos aguas arriba” tiene que detenerse en algún lugar, y en este caso, ahí es exactamente donde se detiene, con un cerebelo humano que hace algún tipo de distinción subjetiva para codificar datos para un sistema artificial.
El comercio de trapo
Hasta hace poco, las inexactitudes derivadas de las anotaciones de conjunto de datos subestimadas se consideraban, tal vez como daños colaterales aceptables en el contexto de los resultados imperfectos pero aún comercializables obtenidos de los sistemas de IA generativos.
De hecho, solo este año, un estudio de Singapur concluyó que las alucinaciones, es decir, las ocasiones en que los sistemas de IA inventan cosas que socavan nuestras intenciones, son inevitables y están obligados a la arquitectura conceptual de tales sistemas.
Para contrarrestar esto, los agentes basados en RAG, que pueden ‘verificar’ los hechos a través de las búsquedas en Internet, se están volviendo populares en la investigación y aplicar soluciones comerciales. Sin embargo, se suman al costo de recursos y a la latencia en consultas; Además, la información novedosa aplicada a un modelo capacitado no puede competir con las conexiones más intrincadas y profundamente interesadas que caracterizan las capas nativas en un modelo entrenado.
Por lo tanto, sería mejor si los datos de anotación que informan estos modelos fueron significativamente menos defectuosos en primer lugar, incluso si no puede ser perfecto (no menos importante porque esta actividad invade el ámbito de la subjetividad humana).
Repope
Un nuevo artículo de Alemania destaca los problemas que surgen de confiar en conjuntos de datos más antiguos y ampliamente utilizados, centrándose en particular en la precisión y confiabilidad de sus subtítulos de imagen. Los hallazgos de los investigadores sugieren que los errores de etiqueta en los puntos de referencia pueden enmascarar o tergiversar la alucinación en los modelos en idioma de visión.
Desde el nuevo artículo, algunos ejemplos en los que los subtítulos originales no lograron identificar correctamente los objetos en el conjunto de datos MSCOCO de imágenes. La revisión manual de los investigadores del conjunto de datos de referencia del Papa aborda estas deficiencias, lo que demuestra el costo de ahorrar dinero en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707
Imagine que se le muestra a un modelo una imagen de una escena de la calle y se le pregunta si hay una bicicleta en ella. El modelo responde Sí. Si el conjunto de datos de referencia dice que no hay bicicleta, el modelo está marcado equivocado. Pero si una bicicleta es claramente visible En la imagen, y simplemente se perdió durante la anotación, entonces la respuesta del modelo fue correcta y el punto de referencia ha fallado. Errores como este pueden acumularse en un conjunto de datos, dando una imagen distorsionada de qué modelos son precisos y cuáles son propensos a la alucinación.
Por lo tanto, cuando las anotaciones incorrectas o ambiguas se tratan como verdad terrestre, los modelos pueden parecer alucinados cuando son correctos, o de lo contrario parecen precisas cuando no lo son, distorsionando tanto la medición de la alucinación como la clasificación del rendimiento del modelo, y dificultar el diagnóstico o abordar el problema con certeza.
El nuevo artículo revisa un punto de referencia ampliamente utilizado llamado Evaluación de sondeo de objetos basado en la encuesta (POPE), que prueba si los modelos en idioma de visión pueden decir correctamente qué está o no en una imagen.
Pope se basa en etiquetas del influyente Microsoft Coco: objetos comunes en el conjunto de datos de contexto (MSCOCO), una colección de imágenes anotadas que durante mucho tiempo ha sido tratada como ofreciendo un buen nivel de precisión de la anotación.
Pope evalúa la alucinación de objetos en modelos de lenguaje de visión grande al volver a replantear el problema como una tarea de clasificación binaria. En lugar de analizar subtítulos, el sistema plantea simple si/no Preguntas al modelo sobre si los objetos específicos están presentes en una imagen, utilizando plantillas como ‘Hay una .
Ejemplos de alucinación de objetos en modelos en idioma de visión. Las etiquetas en negrita indican objetos marcados como presentes en las anotaciones originales, mientras que las etiquetas rojas muestran objetos alucinados por los modelos. El ejemplo izquierdo refleja una evaluación tradicional basada en la instrucción, mientras que los tres ejemplos a la derecha se extraen de diferentes variantes de referencia del Papa. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf
Objetos de verdad en tierra (respuesta: Sí) se combinan con objetos inexistentes muestreados (respuesta: No), elegido por aleatorio, frecuente (popular), o co-ocurrencia (basado en la ocurrencia (adversario) Estrategias. Esta configuración permite una evaluación más estable e insensible a la inmediato de la alucinación sin confiar en un análisis complejo de subtítulos basados en reglas.
Los autores del nuevo artículo, titulado Repopite: impacto de los errores de anotación en el punto de referencia del Papa – Desafíe la precisión supuesta de Pope al volver a verificar las etiquetas en las imágenes del punto de referencia (es decir, MSCOCO), y descubrir que un número sorprendente es incorrecto o poco claro.
Ejemplos del conjunto de datos MSCOCO 2014. Fuente: https://arxiv.org/pdf/1405.0312
Estos errores cambian la forma en que se clasifican los modelos, y algunos que inicialmente se desempeñaron bien se retrasaron cuando se juzgaron contra las etiquetas corregidas.
En las pruebas, los autores evaluaron una gama de modelos en idioma de visión de peso abierto tanto en el punto de referencia del Papa original como en su rehacer Repope versión.
Según el documento, las anotaciones corregidas condujeron a cambios notables en las clasificaciones de modelos, particularmente en las puntuaciones F1, con varios modelos de alto rendimiento bajo el Papa que caen en posición bajo Repope.
Los autores sostienen que este cambio ilustra la medida en que los errores de anotación pueden oscurecer el comportamiento de alucinación real de los modelos, y presentan el repope como una herramienta más confiable para evaluar la vulnerabilidad de la alucinación.
En otro ejemplo del nuevo documento, vemos cómo los subtítulos del Papa original no pueden discernir objetos sutiles, como una persona sentada junto a la cabina de un tranvía en la foto más a la derecha, o la silla oscurecida por el jugador de tenis en la segunda foto desde la izquierda.
Método y pruebas
Los investigadores volvieron a etiquetar todas las anotaciones en el conjunto de datos MSCOCO original, con dos etiquetadores humanos asignados a cada instancia de datos. Donde surgió la ambigüedad en cuanto a la calidad de las etiquetas originales (como en los ejemplos a continuación), estos resultados se apartaron de la ronda de pruebas.
Casos ambiguos, donde las inconsistencias de etiquetado en el Papa reflejan límites de categoría poco claros. Por ejemplo, un oso de peluche etiquetado como un oso, una motocicleta como bicicleta o vehículos de aeropuerto como automóviles. Estos casos fueron excluidos de Repope debido a la naturaleza subjetiva de tales clasificaciones, así como las inconsistencias en las etiquetas originales de MSCOCO.
El documento dice:
‘Los anotadores originales perdieron a las personas en el fondo o detrás del vidrio, el jugador de tenista ocluye las’ sillas ‘en el fondo y la ensalada de cole contiene solo una pequeña franja visible de zanahoria.
‘Para algunos objetos, las anotaciones de Coco son muy inconsistentes probablemente debido a las diferentes definiciones de los objetos utilizados por los anotadores originales. La clasificación de un ‘oso de peluche’ como un ‘oso’, una motocicleta como una ‘bicicleta’ motorizada o un vehículo del aeropuerto como ‘automóvil’ depende de definiciones específicas, lo que lleva a inconsistencias en las anotaciones de la verdad del Pope Ground. Por lo tanto, anotamos los pares de preguntas de imagen correspondientes como “ambiguo”.
Resultados de la reanotación: las preguntas positivas se comparten en las tres variantes del Papa. Entre los etiquetados ‘Sí’ en el Papa, se encontró que el 9.3 por ciento era incorrecto y el 13.8 por ciento se clasificó como ambiguo. Para las preguntas ‘no’, el 1,7 por ciento no se etiquetaron y el 4,3 por ciento eran ambiguos.
Los autores evaluaron una gama de modelos de peso abierto en Pope y Repope, en diversas arquitecturas y tamaños de modelos. Los modelos elegidos incluyeron algunas de las arquitecturas principales en la tabla de clasificación OpenVLM: Internvl2.5 (8B/26B/38B/78B y 8B-MPO/26B-MPO); Llava-next; Vicuna; Mistral 7b; Llama; Llava-Anevision; OVIS2 (1B/2B/4B/8B); Paligemma-3b; y Paligemma2 (3B/10B).
Resultados iniciales: la alta tasa de error en las etiquetas positivas originales conduce a una fuerte caída en los verdaderos positivos en todos los modelos. Los falsos positivos varían entre los subconjuntos, casi duplicando el subconjunto aleatorio, pero permanecen en gran medida sin cambios en el subconjunto popular, y muestran una ligera disminución en el subconjunto adversario. El relanzamiento tiene un efecto importante en las clasificaciones basadas en F1. Modelos como OVIS2-4B y OVIS2-8B, que se desempeñaron bien en las divisiones populares y adversas en el Papa, también se elevan a la parte superior en el subconjunto aleatorio en Repope. Consulte el PDF de origen para una mejor resolución.
Los gráficos de resultados anteriores ilustran cómo cambia el número de verdaderos positivos y falsos positivos después de corregir las etiquetas en el punto de referencia.
Los verdaderos aspectos positivos cayeron en todos los modelos, lo que demuestra que a menudo se les acreditaba las respuestas correctas cuando esas respuestas solo eran correctas bajo etiquetas defectuosas, mientras que los falsos positivos siguieron un patrón más variado.
En la versión ‘aleatoria’ de Pope, falsos positivos casi duplicado Para muchos modelos, lo que indica que un número significativo de objetos marcados como alucinaciones realmente estaban presentes en las imágenes, pero se había perdido en las anotaciones originales. En este caso, muchos supuestos errores del modelo fueron, de hecho, los errores de etiquetado del conjunto de datos.
Para la versión ‘adversaria’ de Pope, donde las preguntas se basaban en objetos que con frecuencia co-o concurren, los falsos positivos disminuyeron. Esto probablemente refleja una mayor posibilidad de que el objeto supuestamente ausente fuera en realidad en la imagen Pero a la izquierda no etiquetado.
Aunque estos cambios afectaron la precisión y el recuerdo, las clasificaciones de modelos se mantuvieron relativamente estables para ambas métricas.
La puntuación F1, la principal medida de evaluación del Papa, era mucho más sensible a las correcciones de la etiqueta. En el subconjunto aleatorio, los modelos que se clasificaron cerca de la parte superior debajo de las etiquetas originales, como Internvl2.5-8b y -26b, cayeron a la parte inferior cuando se puntuaron con Repope. Otros, como OVIS2-4B y -8B, subieron a la cima.
Un patrón similar surgió en los puntajes de precisión, aunque los autores señalan que ahora pueden estar sesgados, ya que el conjunto de datos corregido contiene un número desigual de ejemplos positivos y negativos.
Los autores argumentan que el fuerte impacto de los errores de anotación en los resultados de referencia subraya la necesidad de datos de alta calidad. Para apoyar la evaluación más confiable de la alucinación de objetos, han lanzado las etiquetas corregidas en GitHub.
Sin embargo, señalan que este relevo no aborda completamente la saturación del punto de referencia, ya que muchos modelos aún logran tasas negativas positivas y verdaderas superiores y verdaderas superiores al 90%. Sugieren que los puntos de referencia adicionales, como Dash-B, que utiliza un conjunto más desafiante de ejemplos negativos, deben usarse junto con Repope.
Conclusión
Este experimento particular fue posible debido a la muy pequeña escala del conjunto de datos involucrado. Probar la misma hipótesis en los conjuntos de datos de hiperescala implicaría trabajar en fragmentos muy limitados de los datos; En grandes conjuntos de datos altamente diversos, podría resultar casi imposible aislar agrupaciones estadísticamente representativas y semánticamente coherentes, potencialmente sesgando los resultados.
Incluso si fuera posible, ¿qué remedio habría bajo el estado actual? El argumento vuelve inevitablemente hacia la necesidad de una mejor y más abundante anotación humana.
En este sentido, ‘mejor’ y ‘más abundante’ existen como problemas separados por derecho propio, ya que uno puede obtener un mayor volumen de anotaciones a través de economías de raza a fondo como Amazon Mechanical Turk (AMT). Obviamente, esta subconomía potencialmente explotadora con frecuencia conduce a resultados inferiores.
Alternativamente, uno podría cultivar tareas de anotación a las regiones económicas donde el mismo gasto produciría una mayor cantidad de anotaciones. Sin embargo, cuanto más se elimine el anotador es del caso de uso previsto del modelo que se dará forma a sus etiquetas, menos probable es que el modelo resultante se alinee con las necesidades o expectativas del dominio objetivo.
Por lo tanto, este sigue siendo uno de los desafíos más persistentes y no resueltos en la economía del desarrollo del aprendizaje automático.
Publicado por primera vez el miércoles 23 de abril de 2025