A medida que evolucionan rápidamente los modelos de idiomas grandes (LLM), también lo hace su promesa como poderosos asistentes de investigación. Cada vez más, no solo están respondiendo preguntas fácticas simples, sino que abordan tareas de “investigación profunda”, que implican un razonamiento de varios pasos, evaluar información conflictiva, obtener datos de toda la web y sintetizarlo en un resultado coherente.
Esta capacidad emergente ahora está siendo comercializada bajo diferentes marcas por los laboratorios principales: Openai lo llama “investigación profunda”, antrópico se refiere a él como “pensamiento extendido”, Gemini de Google ofrece características “de búsqueda + pro” y la perplejidad etiqueta su “búsqueda profesional” o “investigación profunda”. Pero, ¿qué tan efectivas son estas ofertas en la práctica? Un nuevo informe de Futuresearch, titulado Deep Research Bench (DRB): Evaluar los agentes de investigación web, ofrece la evaluación más rigurosa hasta la fecha, y los resultados revelan tanto capacidades impresionantes como deficiencias críticas.
¿Qué es el banco de investigación profunda?
Creado por el equipo de FutureSearch, Deep Research Bench es un punto de referencia meticulosamente construido diseñado para evaluar el desempeño de los agentes de IA en tareas de investigación basadas en la web de múltiples pasos. Estas no son preguntas simples con respuestas directas: reflejan los desafíos desordenados y abiertos que enfrentan los analistas, los encargados de formular políticas e investigadores en entornos del mundo real.
El punto de referencia incluye 89 tareas distintas en 8 categorías como:
- Encontrar número: por ejemplo, “¿Cuántos retiros de dispositivos médicos de la FDA Clase II se produjeron?”
- Validar reclamo: por ejemplo, “¿Chatgpt 10x es más intensivo en energía que la búsqueda de Google?”
- Compilar el conjunto de datos: por ejemplo, “Tendencias laborales para desarrolladores de software de EE. UU. De 2019-2023”
Cada tipo de tarea está cuidadosamente estructurado con respuestas verificadas por humanos y se evalúa utilizando un conjunto de datos congelado de páginas web raspadas, conocidas como retroSearch. Esto garantiza la consistencia entre las evaluaciones del modelo, evitando el estado fluctuante de la web en vivo.
La arquitectura del agente: reaccionar y retroSearch
En el corazón de Deep Research Bench se encuentra la arquitectura React, abreviatura de “Razón + Acto”. Este método imita cómo un investigador humano podría abordar un problema: pensar en la tarea, tomar una acción como realizar una búsqueda en la web, observar los resultados y luego decidir si iterar o concluir.
Mientras que los modelos anteriores siguen este bucle explícitamente, los modelos de “pensamiento” más nuevos a menudo agilizan el proceso, incrustando el razonamiento de manera más fluida en sus acciones. Para garantizar la consistencia entre las evaluaciones, DRB presenta retroSearch, una versión estática personalizada de la web. En lugar de confiar en Internet en vivo, lo que cambia constantemente, los agentes aprovechan un archivo curado de páginas web raspadas usando herramientas como Serper, Playwright y Scraperapi. La escala es impresionante: para las tareas de alta complejidad como “recolectar evidencia”, la retrospearch puede proporcionar acceso a más de 189,000 páginas, todas congeladas en el tiempo, asegurando un entorno de prueba justo y replicable.
¿Qué agentes de IA funcionan mejor?
Entre todos los contendientes, el O3 de Openai surgió como el mejor desempeño, obteniendo 0.51 de un posible 1.0 en el banco de investigación profunda. Si bien eso puede sonar modesto, es importante comprender la dificultad del punto de referencia: debido a la ambigüedad en las definiciones de tareas y la puntuación, incluso un agente impecable probablemente superaría alrededor de 0.8, lo que los investigadores llaman el “techo de ruido”. En otras palabras, incluso los mejores modelos de hoy aún no alcanzan investigadores humanos metódicos bien informados.
Aún así, la tabla de clasificación ofrece ideas reveladoras. O3 no solo lideró el paquete, sino que lo hizo con velocidad y consistencia, mostrando un fuerte rendimiento en casi todos los tipos de tareas. El soneto Claude 3.7 de Anthrope siguió de cerca, demostrando versatilidad tanto en sus modos de “pensamiento” como de “no pensamiento”. Gemini 2.5 Pro, el modelo insignia de Google, se destacó por su capacidad para manejar tareas que requieren planificación estructurada y razonamiento paso a paso. Mientras tanto, el peso abierto Deepseek-R1 ofreció una agradable sorpresa, manteniendo el ritmo de GPT-4 Turbo y reduciendo la brecha de rendimiento entre los modelos abiertos y cerrados.
En general, surgió un patrón claro: los modelos más nuevos, “habilitados para pensar” superaron consistentemente a sus homólogos anteriores, y los modelos de código cerrado mantuvieron una ventaja notable sobre las alternativas de peso abierto.
¿Dónde luchan los agentes?
Leer a través de los patrones de falla destacados en el informe de Deep Research Bench se sintió sorprendentemente familiar. Uno de los aspectos más frustrantes que he encontrado personalmente, especialmente durante las largas sesiones de investigación o creación de contenido, es cuando un agente de IA simplemente olvida lo que estábamos haciendo. A medida que la ventana de contexto se extiende, el modelo a menudo comienza a perder el hilo: los detalles clave se desvanecen, los objetivos se confunden y de repente, las respuestas se sienten desarticuladas o sin rumbo. En algún momento, he aprendido que a menudo es mejor reducir las pérdidas y comenzar desde cero, incluso si eso significa tirar todo lo que se ha generado hasta ahora.
Ese tipo de olvido no es solo anecdótico, es el predictor más significativo del fracaso en la evaluación del banco de investigación profunda. Pero no es el único problema recurrente. El informe también destaca cómo algunos modelos caen en el uso de la herramienta repetitiva, ejecutando la misma búsqueda una y otra vez como si estuvieran atascadas en un bucle. Otros muestran una mala consulta de consultas, una pareja de palabras clave perezosamente en lugar de pensar críticamente sobre cómo buscar de manera efectiva. Y con demasiada frecuencia, los agentes son víctimas de conclusiones prematuras, entregando una respuesta medio formada que técnicamente marca la casilla pero no alcanza una idea real.
Incluso entre los principales modelos, las diferencias son marcadas. GPT-4 Turbo, por ejemplo, mostró una tendencia notable a olvidar los pasos anteriores, mientras que Deepseek-R1 era más probable que alucine o inventara la información de sonido plausible, pero incorrecta,. En todos los ámbitos, los modelos frecuentemente no pudieron verificar las fuentes o validar los hallazgos antes de finalizar su salida. Para cualquiera que haya confiado en la IA para un trabajo serio, estos problemas se sentirán demasiado familiarizados, y subrayan cuán lejos aún tenemos que llegar a la construcción de agentes que realmente puedan pensar e investigar como humanos.
¿Qué pasa con el rendimiento basado en la memoria?
Curiosamente, Deep Research Bench también evaluó lo que llama agentes “Toolress”: modelos de lenguaje que operan sin acceso a herramientas externas, como búsqueda en la web o recuperación de documentos. Estos agentes confían completamente en sus datos y memoria de entrenamiento interno, generando respuestas basadas únicamente en lo que han aprendido anteriormente durante la capacitación. En la práctica, esto significa que no pueden buscar nada o verificar la información, adivinan en base a lo que “recuerdan”.
Sorprendentemente, estos agentes de los toldosas se desempeñaron casi tan bien como los agentes de investigación completos en ciertas tareas. Por ejemplo, en la tarea de reclamo de validar, donde el objetivo es evaluar la plausibilidad de una declaración, obtuvieron 0.61, casi coincidiendo con el promedio de 0.62 de agentes habilitados para herramientas. Esto sugiere que modelos como O3 y Claude tienen fuertes antecedentes internos y, a menudo, pueden reconocer la veracidad de las afirmaciones comunes sin necesidad de buscar en la web.
Pero en tareas más exigentes, como el número de deriva, lo que requiere unir múltiples valores de varias fuentes, o reunir evidencia, que depende de encontrar y evaluar diversos hechos en el contexto, estos modelos tocados se desmoronaron por completo. Sin información nueva o capacidades de búsqueda en tiempo real, simplemente carecían de los medios para producir respuestas precisas o integrales.
Este contraste destaca un matiz importante: si bien los LLM de hoy pueden simular mucho “saber”, la investigación profunda no solo del retiro, sino del razonamiento con información actualizada y verificable, algo que solo los agentes acuáticos de herramientas realmente pueden entregar realmente.
Pensamientos finales
El informe de DRB deja en claro una cosa: si bien los mejores agentes de IA de hoy pueden superar a los humanos promedio en tareas estrechamente definidas, todavía se quedan atrás de investigadores generalistas calificados, especialmente cuando se trata de planificar estratégicamente, adaptar el proceso medio y razonamiento con matices.
Esta brecha se vuelve especialmente obvia durante las sesiones largas o complejas, algo que he experimentado de primera mano, donde un agente pierde gradualmente el seguimiento del propósito de la tarea, lo que lleva a un desglose frustrante en coherencia y utilidad.
Lo que hace que el banco de investigación profunda sea tan valiosa es que no solo pruebe el conocimiento a nivel de superficie: sondea la intersección del uso de herramientas, la memoria, el razonamiento y la adaptación, ofreciendo un análogo más cercano a la investigación del mundo real que los puntos de referencia como MMLU o GSM8K.
A medida que los LLM continúan integrándose en un trabajo de conocimiento serio, las herramientas de FutureSearch como DRB serán esenciales para evaluar no solo lo que estos sistemas saben, sino qué tan bien realmente funcionan.