La lucha de AI para leer relojes analógicos puede tener un significado más profundo

-

spot_img

Un nuevo artículo de investigadores en China y España encuentra que incluso avanzó modelos de IA multimodales como GPT-4.1 lucha por decir el tiempo de las imágenes de relojes analógicos. Los pequeños cambios visuales en los relojes pueden causar errores de interpretación importantes, y el ajuste fino solo ayuda con ejemplos familiares. Los resultados plantean preocupaciones sobre la confiabilidad de estos modelos cuando se enfrentan a imágenes desconocidas en tareas del mundo real.

Cuando los humanos desarrollan una comprensión lo suficientemente profunda de un dominio, como la gravedad u otros principios físicos básicos, avanzamos más allá de los ejemplos específicos para comprender las abstracciones subyacentes. Esto nos permite aplicar ese conocimiento creativamente a través de contextos y reconocer nuevas instancias, incluso aquellas que nunca hemos visto antes, identificando el principio en acción.

Cuando un dominio tiene suficiente importancia, incluso podemos comenzar a percibirlo donde no existecomo con Pareidolia, impulsado por el alto costo de no reconocer una instancia real. Tan fuerte es este mecanismo de supervivencia que reconoce el patrón que incluso nos dispone de encontrar una gama más amplia de patrones donde no hay ninguno.

Cuanto más se inculca un dominio anterior y más repetitivo, más profunda su base y persistencia de por vida; Y uno de los primeros conjuntos de datos visuales a los que estamos expuestos cuando los niños vienen en forma de clocks de enseñanza, donde se usan material impreso o relojes analógicos interactivos para enseñarnos cómo decir el tiempo:

Enseñanza de SIDA para ayudar a los niños a aprender a decir tiempo. Fuente: https://www.youtube.com/watch?v=ibbqxbhsnus

Aunque cambiar las modas en el diseño de relojes a veces puede desafiarnos, la resiliencia de este maestro de dominio temprano es bastante impresionante, lo que nos permite discernir caras analógicas de reloj incluso frente a las opciones de diseño complejas o ‘excéntricas’:

Algunas caras desafiantes en el reloj coutura. Fuente: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

Los humanos no necesitan miles de ejemplos para aprender cómo funcionan los relojes; Una vez que se comprende el concepto básico, podemos reconocerlo en casi cualquier forma, incluso cuando se distorsionan o abstrae.

La dificultad que los modelos de IA enfrentan con esta tarea, por el contrario, destaca un problema más profundo: su aparente fuerza puede depender más de la exposición de alto volumen que de la comprensión.

¿Más allá del juego de imitación?

La tensión entre el rendimiento a nivel de superficie y la “comprensión” genuina ha aparecido repetidamente en investigaciones recientes de modelos grandes. El mes pasado, la Universidad de Zhejiang y la Universidad de Westlake volvieron a enfrentar la pregunta en un artículo titulado ¿Los LLM de nivel de doctorado realmente agarran la adición elemental? (no el foco de este artículo), concluyendo:

‘A pesar de los impresionantes puntos de referencia, los modelos muestran una dependencia crítica de la coincidencia de patrones en lugar de la verdadera comprensión, evidenciada por fallas con representaciones simbólicas y violaciones de las propiedades básicas.

‘El rendimiento de la disposición de reglas explícitas sugiere restricciones arquitectónicas inherentes. Estas ideas revelan brechas de evaluación y destacan la necesidad de arquitecturas capaces de un razonamiento matemático genuino más allá del reconocimiento de patrones ‘.

Esta semana, la pregunta surge nuevamente, ahora en una colaboración entre la Universidad de Aeronáutica y Astronáutica de Nanjing y la Universidad Politécnica de Madrid en España. Noble ¿Han aprendido realmente los modelos multimodales de lenguaje grande (MLLMS) a decir la hora en los relojes analógicos?el nuevo artículo explora qué tan bien los modelos multimodales comprenden el tiempo de venta.

Leer  IA agente: cómo los grandes modelos lingüísticos están dando forma al futuro de los agentes autónomos

Aunque el progreso de la investigación se cubre solo con amplio detalle en el documento, las pruebas iniciales de los investigadores establecieron que el modelo de lenguaje multimodal GPT-4.1 de OpenAI tuvo dificultades para leer correctamente el tiempo de un conjunto diverso de imágenes de reloj, a menudo dando respuestas incorrectas incluso en casos simples.

Esto apunta a una posible brecha en los datos de capacitación del modelo, que aumenta la necesidad de un conjunto de datos más equilibrado, para probar si el modelo puede aprender el concepto subyacente. Por lo tanto, los autores seleccionaron un conjunto de datos sintético de relojes analógicos, cubriendo uniformemente cada tiempo posible y evitando los sesgos habituales que se encuentran en las imágenes de Internet:

Un ejemplo del conjunto de datos de reloj analógico sintético de los investigadores, utilizado para ajustar un modelo GPT en el nuevo trabajo. Fuente: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Antes de ajustar el nuevo conjunto de datos, GPT-4.1 no pudo leer consistentemente estos relojes. Sin embargo, después de una exposición a la nueva colección, su rendimiento mejoró, pero solo cuando las nuevas imágenes parecían las que ya había visto.

Cuando cambió la forma del reloj o el estilo de las manos, la precisión cayó bruscamente; Incluso los pequeños ajustes, como las manos más delgadas o las puntas de flecha (imagen más derecha a continuación), fueron suficientes para tirarlo; y GPT-4.1 luchó adicionalmente para interpretar ‘relojes de derretimiento’ de Dali:

Imágenes de reloj con diseño estándar (izquierda), forma distorsionada (medio) y manos modificadas (derecha), junto con los tiempos devueltos por GPT-4.1 antes y después del ajuste. Fuente: https://arxiv.org/pdf/2505.10862

Los autores deducen que los modelos actuales como GPT-4.1 pueden estar aprendiendo la lectura del reloj principalmente a través de coincidencia de patrones visualesen lugar de cualquier concepto de tiempo más profundo, afirmando:

‘(GPT 4.1) falla cuando el reloj se deforma o cuando las manos se cambian para ser más delgadas y tener una punta de flecha. El error absoluto medio (MAE) en la estimación de tiempo en 150 tiempos aleatorios fue de 232.48s para los relojes iniciales, 1380.69s cuando la forma está deformada y 3726.93s cuando las manos cambian.

“Estos resultados sugieren que el MLLM no ha aprendido a decir el tiempo sino los patrones memorizados”.

Suficiente tiempo

La mayoría de los conjuntos de datos de capacitación se basan en imágenes web raspadas, que tienden a repetir ciertos tiempos, especialmente 10:10, una configuración popular en anuncios de relojes:

Desde el nuevo artículo, un ejemplo de la prevalencia del tiempo ‘Diez diez’ en imágenes analógicas de reloj.

Como resultado de este rango limitado de veces representado, el modelo puede ver solo un rango estrecho de posibles configuraciones de reloj, lo que limita su capacidad para generalizar más allá de esos patrones repetitivos.

Leer  El arte generado por IA no puede tener derechos de autor, dice el Tribunal de Apelaciones de los Estados Unidos

En cuanto a por qué los modelos no interpretan correctamente los relojes distorsionados, el documento establece:

‘Aunque GPT-4.1 funciona excepcionalmente bien con las imágenes de reloj estándar, es sorprendente que modificar las manos del reloj al hacerlas más delgadas y agregar puntas de flecha conduce a una caída significativa en su precisión.

‘Intuitivamente, uno podría esperar que el cambio visualmente más complejo, una esfera distorsionada, tenga un mayor impacto en el rendimiento, sin embargo, esta modificación parece tener un efecto relativamente menor.

‘Esto plantea una pregunta: ¿cómo interpretan los relojes MLLM y por qué fallan? Una posibilidad es que las manos más delgadas afecten la capacidad del modelo para percibir la dirección, debilitando su comprensión de la orientación espacial.

“Alternativamente, podría haber otros factores que causan confusión cuando el modelo intenta combinar las manos de la hora, el minuto y las segundas en una lectura precisa del tiempo”.

Los autores sostienen que identificar la causa raíz de estas fallas es clave para avanzar en modelos multimodales: si el problema radica en cómo el modelo percibe la dirección espacial, el ajuste fino puede ofrecer una solución simple; Pero si el problema proviene de una dificultad más amplia para integrar múltiples señales visuales, apunta a una debilidad más fundamental en la forma en que estos sistemas procesan la información.

Pruebas de ajuste

Para probar si las fallas del modelo podrían superarse con la exposición, GPT-4.1 fue ajustado en el conjunto de datos sintético antes mencionado e integral. Antes de ajustar, sus predicciones estaban ampliamente dispersas, con errores significativos en todos los tipos de relojes. Después de ajustar la colección, la precisión mejoró bruscamente en las caras de reloj estándar y, en menor medida, en las distorsionadas.

Sin embargo, los relojes con manos modificadas, como formas más delgadas o puntas de flecha, continuaron produciendo grandes errores.

Surgieron dos modos de falla distintos: en relojes normales y distorsionados, el modelo generalmente juzgaba mal la dirección de las manos; Pero en relojes con alterado estilos de manoa menudo confundía la función de cada mano, confundiendo hora para minuto o minuto para segundo.

Una comparación que ilustra la debilidad inicial del modelo, y las ganancias parciales logradas a través del ajuste fino, que muestra el tiempo previsto versus real, en segundos, para 150 relojes seleccionados al azar. A la izquierda, antes de ajustar, las predicciones de GPT-4.1 están dispersas y a menudo lejos de los valores correctos, indicados por la línea diagonal roja. A la derecha, después de ajustar un conjunto de datos sintético equilibrado, las predicciones se alinean mucho más estrechamente con la verdad del suelo, aunque quedan algunos errores.

Esto sugiere que el modelo había aprendido a asociar características visuales como el grosor de la mano con roles específicos, y luchó cuando estas señales cambiaron.

Leer  IA en la Olimpiada Internacional de Matemáticas: cómo AlphaProof y AlphaGeometry 2 lograron la medalla de plata

La mejora limitada en diseños desconocidos plantea más dudas sobre si un modelo de este tipo aprende el concepto abstracto de tiempo de tiempo o simplemente refina su coincidencia de patrones.

Señales de mano

Entonces, aunque el ajuste fino mejoró el rendimiento de GPT-4.1 en los relojes analógicos convencionales, tuvo mucho menos impacto en los relojes con manos más delgadas o formas de punta de flecha, lo que aumenta la posibilidad de que las fallas del modelo se produjeran menos del razonamiento abstracto y más de la confusión sobre qué mano era cuál.

Para probar si la precisión podría mejorar si se eliminara esa confusión, se realizó un nuevo análisis en las predicciones del modelo para el conjunto de datos “modificado”. Las salidas se dividieron en dos grupos: casos en los que GPT-4.1 reconoció correctamente las manos de la hora, el minuto y las segundas; y casos en los que no lo hizo.

Las predicciones se evaluaron para el error absoluto medio (MAE) antes y después del ajuste fino, y los resultados en comparación con los de los relojes estándar; El error angular también se midió para cada mano utilizando la posición del dial como línea de base:

Comparación de errores para relojes con y sin confusión de rol de mano en el conjunto de datos de mano modificada antes y después del ajuste.

Confundir los roles de las manos del reloj condujo a los mayores errores. Cuando GPT-4.1 confundió la mano de la hora para el minuto o viceversa, las estimaciones de tiempo resultantes a menudo estaban lejos. En contraste, los errores causados ​​por juzgar mal la dirección de una mano identificada correctamente fueron más pequeños. Entre las tres manos, la mano de la hora mostró el error angular más alto antes del ajuste, mientras que la segunda mano mostró la más baja.

Error angular por tipo de mano para predicciones con y sin confusión de rol de mano, antes y después del ajuste, en el conjunto de datos de mano modificada.

Para centrarse solo en los errores direccionales, el análisis se limitó a los casos en que el modelo identificó correctamente la función de cada mano. Si el modelo hubiera internalizado un concepto general de tiempo de tiempo, su rendimiento en estos ejemplos debería haber igualado su precisión en los relojes estándar. No lo hizo, y la precisión siguió siendo notablemente peor.

Para examinar si la mano forma Interferido con el sentido de dirección del modelo, se ejecutó un segundo experimento: se crearon dos conjuntos de datos nuevos, cada uno que contiene sesenta relojes sintéticos con solo una hora de mano, apuntando a una marca de minuto diferente. Un conjunto usó el diseño de la mano original y el otro la versión alterada. Se le pidió al modelo que nombrara la marca de la marca a la que apuntaba la mano.

Los resultados mostraron una ligera caída en la precisión con las manos modificadas, pero no lo suficiente como para tener en cuenta las fallas más amplias del modelo. A característica visual desconocida parecía capaz de interrumpir la interpretación general del modelo, incluso en tareas que había tenido un buen desempeño previamente.

Descripción general del rendimiento de GPT-4.1 antes y después del ajuste en los relojes estándar, distorsionados y modificados, destacando ganancias desiguales y debilidades persistentes.

Conclusión

Si bien el enfoque del documento puede parecer trivial a primera vista, no importa especialmente si los modelos en idioma de visión alguna vez aprenden a leer relojes analógicos con una precisión del 100%. Lo que da peso al trabajo es su enfoque en una pregunta recurrente más profunda: si los modelos saturantes con datos más (y más diversos) pueden conducir al tipo de dominio que entiende que los humanos adquieren a través de la abstracción y la generalización; o si la única ruta viable es inundar el dominio con suficientes ejemplos para anticipar todas las variaciones posibles en inferencia.

Cualquiera de las rutas plantea dudas sobre qué arquitecturas actuales son realmente capaces de aprender.

Publicado por primera vez el lunes 19 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares