Incluso los modelos de idiomas de última generación luchan por comprender la lógica temporal

-

spot_img

Predecir los estados futuros es una misión crítica en la investigación de la visión por computadora, sobre todo en robótica, donde deben considerarse situaciones del mundo real. Por lo tanto, los sistemas de aprendizaje automático confiado de tareas de misión crítica necesitan una comprensión adecuada del mundo físico.

Sin embargo, en algunos casos, un conocimiento aparentemente impresionante de la realidad temporal podría ser engañoso: un nuevo artículo de los Emiratos Árabes Unidos ha encontrado que los modelos de lenguaje grande de última generación (MLLM), incluidos los líderes del sector GPT-4O y Google Gemini, se queda corto cuando se trata de interpretar cómo se representa el tiempo en las imágenes.

Ejemplo de pares secuenciales (ver la imagen a continuación), que sería inquietante para los humanos, incluso cuando se pone en el orden incorrecto, puede Fox Advanced MLLMS cuando se presenta en contextos o configuraciones inesperadas (como la segunda imagen, concatenadas en imágenes individuales, secuenciales múltiples imágenes que pueden o no representar el orden temporal correcto, y así sucesivamente.).

Muestras de uno de los conjuntos de datos compilados para el nuevo estudio, que muestran eventos secuenciales en forma de imágenes ‘antes y después’. Los investigadores han puesto a disposición estos datos en https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Los investigadores encargaron a los modelos con desafíos básicos de razonamiento temporal, como determinar el orden de eventos o la estimación de las brechas de tiempo, y descubrieron que los siete MLLM probados se desempeñaron notablemente por debajo de la precisión humana:

‘En general, los (resultados) revelan que todos los MLLM actuales, incluido GPT-4O, el modelo más avanzado en nuestra evaluación, luchan con el punto de referencia propuesto. A pesar del rendimiento superior de GPT-4O en relación con otros modelos, no demuestra constantemente un razonamiento temporal preciso en diferentes entornos.

‘Los puntajes de precisión consistentes son notablemente bajos para todos los modelos, lo que indica limitaciones significativas en su capacidad para comprender e interpretar secuencias temporales a partir de entradas visuales. Estas deficiencias son evidentes incluso cuando los modelos se proporcionan con entradas múltiples o indicaciones optimizadas, lo que sugiere que las arquitecturas actuales y las metodologías de capacitación son insuficientes para una comprensión sólida del orden temporal ”.

Los sistemas de aprendizaje automático están diseñados para optimizar los resultados más precisos, pero también más eficientes y complacientes de las personas*. Dado que no revelan su razonamiento explícitamente, puede ser difícil saber cuándo están haciendo trampa o usando ‘atajos’.

En tal caso, el MLLM puede llegar al respuesta correcta por el método incorrecto. El hecho de que tal respuesta pueda ser correcta puede inspirar falsa confianza en el modelo, lo que podría producir resultados incorrectos con el mismo método en tareas posteriores presentadas a él.

Peor aún, esta mala dirección puede volverse aún más profundamente integrada en la cadena de desarrollo si los humanos están impresionados por ella, y dar retroalimentación positiva en ensayos y sesiones de anotación que pueden contribuir a la dirección que los datos y/o el modelo podrían tomar.

En este caso, la sugerencia es que los MLLM están ‘fingiendo’ una verdadera comprensión de la cronología y los fenómenos temporales, al observar y anclar en indicadores secundarios (como puestos de tiempo, por ejemplo, en datos de video, orden de imágenes en un diseño, o incluso, potencialmente, nombres de archivo de un número secuencial).

Leer  IA en el consultorio del médico: los médicos de cabecera recurren a ChatGPT y otras herramientas para el diagnóstico

Además, indica que los MLLM actualmente no satisfacen ninguna definición real de haber generalizado un concepto de fenómenos temporales, al menos, en la medida en que los humanos pueden.

El nuevo artículo se titula ¿Pueden los MLLM multimodales hacer una comprensión y razonamiento temporal visual? ¡La respuesta es no!y proviene de tres investigadores de la Universidad de Inteligencia Artificial de Mohamed Bin Zayed y Comercio Digital Internacional de Alibaba.

Datos y pruebas

Los autores señalan que los puntos de referencia y los estudios anteriores, como MMMU y Temporalbench, se concentran en entradas de imágenes individuales o formulan preguntas para los MLLM que pueden ser bastante fáciles de responder, y no pueden descubrir una tendencia hacia el comportamiento de acceso directo.

Por lo tanto, los autores ofrecen dos enfoques actualizados: Comprensión del orden temporal (Tou) y Estimación de lapso de tiempo (Tle). El enfoque TOU prueba los modelos sobre su capacidad para determinar la secuencia correcta de eventos a partir de pares de marcos de video; El método TLE evalúa la capacidad de MLLM para estimar la diferencia de tiempo entre dos imágenes, que van desde segundos hasta años.

Desde el documento, las dos tareas principales del punto de referencia temporalVQA: en la comprensión del orden temporal, el modelo decide cuál de las dos imágenes muestra un evento que ocurrió primero; En la estimación del lapso de tiempo, el modelo estima cuánto tiempo ha pasado entre dos imágenes, seleccionando de opciones que incluyen segundos, minutos, días o años. Estas tareas tienen como objetivo probar qué tan bien los MLLM pueden razonar sobre el momento y la secuencia de eventos visuales. Fuente: https://arxiv.org/pdf/2501.10674

Los investigadores seleccionaron 360 pares de imágenes para el punto de referencia TOU, utilizando videos de código abierto de Pixabay y Pexels, por lo que sería posible hacer que el conjunto de datos esté disponible a través de una GUI.

Los videos cubrieron una variedad de temas, desde personas en actividades cotidianas hasta contenido no humano, como animales y plantas. A partir de estos, se seleccionaron pares de cuadros para representar una secuencia de eventos con una variación suficiente para que el marco inicial sea “obvio”.

La selección humana se utilizó para garantizar que los marcos pudieran ser ordenados definitivamente. Por ejemplo, uno de los pares seleccionados muestra una taza de té parcialmente llena en un cuadro, y la misma taza completamente llena de té en el siguiente, lo que hace que la lógica de secuencia sea fácil de identificar.

La lógica temporal de estas dos imágenes no puede ser escapada, ya que el té no puede ser absorbido por la boquilla.

De esta manera, se obtuvieron 360 pares de imágenes.

Para el enfoque TLE, se eligieron imágenes sin derechos de autor de Google y Flickr, así como marcos seleccionados de videos sin derechos de autor en YouTube. El tema de estos videos presentaba escenas u objetos cuyo intervalo de cambio varió de segundos a días a temporadas, por ejemplo, la maduración de la fruta o el cambio de estaciones en los paisajes.

Leer  Implementación de análisis avanzados en el sector inmobiliario: uso del aprendizaje automático para predecir cambios en el mercado

Por lo tanto, se seleccionaron 125 pares de imágenes para el método TLE.

No todos los MLLM probados pudieron procesar múltiples imágenes; Por lo tanto, las pruebas diferían para acomodar las capacidades de cada modelo.

Se generaron múltiples versiones de los conjuntos de datos curados, en los que algunos de los pares se concatenaron verticalmente y otros horizontalmente. Variaciones adicionales intercambiaron la secuencia temporal verdadera y correcta de los pares.

Se desarrollaron dos tipos rápidos. El primero siguió a esta plantilla:

Did the event in the (left / top / first) image happen before the event in the (right / bottom / second) image? State true or false with reasoning.

El segundo siguió este esquema:

Between these two images, which one depicts the event that happened first? State (left or right / top or bottom / first or second) with reasoning.

Para TLE, las preguntas fueron de opción múltiple, pidiendo a los modelos que evalúen el lapso de tiempo entre las dos imágenes presentadas, con artículos de segunda clase, horas, minutos, días, meses y años Disponible como las unidades de tiempo. En esta configuración, la imagen más reciente se presentó a la derecha.

El aviso utilizado aquí fue:

In the given image, estimate the time that has passed between the first image (left) and the second image (right).

Choose one of the following options:

    1. Less than 15 seconds
      B. Between 2 minutes to 15 minutes
      C. Between 1 hour to 12 hours
      D. Between 2 days to 30 days
      E. Between 4 months to 12 months
      F. More than 3 years

Mllms Text ChatGPT-4O; Géminis1.5-pro; Lengua nueva de la tierra; Internvl; QWEN-VL; Llama-3-visión; y Llava-Cot.

Comprensión del orden temporal: resultados

Resultados de la comprensión del orden temporal en diferentes modelos y diseños de entrada, mostrando precisión y consistencia para diversas configuraciones y indicaciones.

Con respecto a los resultados mostrados anteriormente, los autores encontraron que todos los MLLM probados, incluido GPT-4O (que mostró el mejor rendimiento general), luchó significativamente con el punto de referencia temporalVQA, e incluso GPT-4O no pudo exhibir constantemente un razonamiento temporal confiable en diferentes configuraciones.

Los autores sostienen que la precisión consistentemente baja entre LLM destaca deficiencias significativas en la capacidad de los modelos para interpretar y razonar sobre las secuencias temporales de los datos visuales. Los investigadores señalan que estos desafíos persisten incluso con el uso de entradas de imágenes múltiples y indicaciones optimizadas, señalando limitaciones fundamentales en las arquitecturas de modelos y métodos de capacitación actuales.

Las pruebas mostraron variaciones significativas en el rendimiento en las estrategias de impulso. Mientras que GPT-4O mejoró con indicaciones optimizadas (alcanzando un 4% en imagen única y 65.3% en configuraciones de imágenes múltiples), el rendimiento se mantuvo por debajo de los niveles aceptables.

Modelos como Llava-Next y QWEN-VL fueron aún más sensibles, con una disminución del rendimiento cuando se usaron indicaciones alternativas, lo que sugiere que la ingeniería rápida por sí sola no puede superar las limitaciones fundamentales de los MLLM con respecto al razonamiento temporal.

Leer  La IA hambrienta de energía devorará el suministro de energía del tamaño de Japón para 2030

Las pruebas también indicaron que el diseño de la imagen (es decir, vertical versus horizontal) afectó significativamente el rendimiento del modelo. GPT-4O mejoró su consistencia con los arreglos verticales, que aumenta del 39.2% al 52.8%; Sin embargo, otros modelos, incluidas las cepas de Llava, mostraron fuertes sesgos direccionales, sobresaliendo en una orientación pero fallando en otra.

El documento indica que estas inconsistencias sugieren dependencia de las señales espaciales, en lugar del verdadero razonamiento temporal, con los MLLM que no analizan genuinamente la secuencia de eventos o comprenden la progresión a lo largo del tiempo. En cambio, parecen haber confiado en patrones o características visuales relacionadas con el diseño de imágenes, como su posición o alineación, para tomar decisiones.

Las pruebas cualitativas destacan las predicciones de GPT-4O cuando se enfrentan con diferentes órdenes de entrada. En el primer orden, los pares de imágenes se presentan en su secuencia original, mientras que en el segundo orden, la secuencia se invierte. Las clasificaciones correctas se marcan en clasificaciones erróneas verdes, puras en el razonamiento rojo, alucinado en naranja y el razonamiento ilógico o “inválido” en marrón, revelando las inconsistencias del modelo en diferentes configuraciones de entrada.

Las pruebas de comparación entre las entradas de imagen única y de múltiples imágenes demostraron una mejora general limitada, con GPT-4O funcionando ligeramente mejor en la entrada de imágenes múltiples, que aumenta de 31.0% a 43.6% (con P1) y 46.0% a 65.3% (con P2) .

Otros modelos, como Internvl, demostraron una precisión estable pero baja, mientras que QWEN-VL vio ganancias menores. Los autores concluyen que estos resultados indican que el contexto visual adicional no mejora sustancialmente las capacidades de razonamiento temporal, ya que los modelos luchan por integrar la información temporal de manera efectiva.

Estudio humano

En un estudio en humanos, se realizaron tres encuestas para evaluar cuán de cerca se realizó el MLLM multimodal mejor realizado contra la estimación humana.

Los humanos lograron una precisión del 90.3%, superando el 65.3% de GPT-4O en un 25%. El conjunto de datos resultó confiable, con errores humanos mínimos y un acuerdo consistente sobre las respuestas correctas.

Resultados del estudio del usuario humano para la primera ronda de pruebas.

Estimación de lapso de tiempo: resultados

Resultados para TLE: la estimación de lapso de tiempo evalúa la precisión del modelo en los intervalos de identificación entre pares de imágenes, a través de escalas de segundos a años. La tarea evalúa la capacidad de cada modelo para seleccionar la escala de tiempo correcta para la brecha temporal.

En estas pruebas, los MLLM se realizaron solo adecuadamente en la estimación de lapso de tiempo: GPT-4O alcanzó una precisión del 70%, pero los otros modelos tuvieron un rendimiento significativamente peor (ver la tabla anterior), y el rendimiento también varió notablemente en las diversas escalas de tiempo.

Los autores comentan:

‘La tarea de estimación de lapso de tiempo prueba la capacidad de los MLLM para inferir intervalos temporales entre pares de imágenes. (Todos) MLLM, incluidos los mejores resultados como GPT-4O y Gemini1.5-Pro, luchan con esta tarea, logrando solo niveles de precisión moderados del 60-70%. GPT-4O muestra un rendimiento inconsistente, con un fuerte rendimiento en segundos y años, pero tiene un rendimiento inferior en horas.

Del mismo modo, Llava-Cot demuestra un rendimiento excepcional en los tramos de tiempo de segundos y días, al tiempo que muestra un rendimiento notablemente pobre en los otros intervalos de tiempo ‘.

Estudio humano

En el estudio humano para TLE, el rendimiento humano promedio mejoró en GPT-4O (el modelo de mejor rendimiento también en esta categoría) en un 12,3%.

Los autores señalan que algunos de los desafíos fueron particularmente exigentes, y que en un caso todos los participantes humanos devolvieron una respuesta incorrecta, junto con todos los participantes de la IA.

Los autores concluyen que GPT-4O exhibe las capacidades de razonamiento razonablemente sólidas, a pesar del orden de imágenes que se le presentan.

Conclusión

Si los MLLMS eventualmente acumulan y absorben suficientes datos de ‘atajo’ para cubrir incluso los desafíos más complicados del tipo presentado por los autores en este estudio, si se puede decir o no que hayan desarrollado o no capacidades de generalización de estilo humano en este dominio podrían convertirse en un discutible punto.

Tampoco se sabe exactamente por qué ruta obtenemos nuestras propias habilidades en el razonamiento temporal: ¿también “engañamos” hasta que la gran cantidad de experiencia aprendida revela un patrón que funciona como “instinto” con respecto a este tipo de prueba?

* Desde el punto de vista de que los modelos se están optimizando cada vez más con las funciones de pérdida a las que ha contribuido la retroalimentación humana, y efectivamente optimizado por los ensayos en humanos y el triaje posterior.

Publicado por primera vez el lunes 27 de enero de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares