El lanzamiento reciente de Microsoft de los desafíos de conducción PHI-4, una suposición clave en la construcción de sistemas de inteligencia artificial capaces de razonamiento. Desde la introducción del razonamiento de la cadena de pensamiento en 2022, los investigadores creían que el razonamiento avanzado requería modelos de lenguaje muy grandes con cientos de miles de millones de parámetros. Sin embargo, el nuevo modelo de parámetros de 14 mil millones de Microsoft, PHI-4-Rasoning, cuestiona esta creencia. Utilizando un enfoque centrado en los datos en lugar de depender de la gran potencia computacional, el modelo logra un rendimiento comparable a sistemas mucho más grandes. Este avance muestra que un enfoque centrado en los datos puede ser tan efectivo para capacitar a los modelos de razonamiento como lo es para la capacitación de IA convencional. Abre la posibilidad de que los modelos de IA más pequeños logren un razonamiento avanzado cambiando la forma en que los desarrolladores de IA entrenan los modelos de razonamiento, pasar de “más grande es mejor” a “mejores datos es mejor”.
El paradigma de razonamiento tradicional
El razonamiento de la cadena de pensamiento se ha convertido en un estándar para resolver problemas complejos en la inteligencia artificial. Esta técnica guía los modelos de lenguaje a través del razonamiento paso a paso, descomponiendo problemas difíciles en pasos más pequeños y manejables. Imita el pensamiento humano haciendo que los modelos “piensen en voz alta” en lenguaje natural antes de dar una respuesta.
Sin embargo, esta habilidad llegó con una limitación importante. Los investigadores descubrieron constantemente que la impulso de cadena de pensamiento funcionaba bien solo cuando los modelos de idiomas eran muy grandes. La capacidad de razonamiento parecía directamente vinculada al tamaño del modelo, con modelos más grandes que funcionan mejor en tareas de razonamiento complejas. Este hallazgo condujo a la competencia en la construcción de grandes modelos de razonamiento, donde las empresas se centraron en convertir sus modelos de idiomas grandes en motores de razonamiento poderosos.
La idea de incorporar habilidades de razonamiento en los modelos de IA provino principalmente de la observación de que los modelos de lenguaje grande pueden realizar el aprendizaje en contexto. Los investigadores observaron que cuando los modelos se muestran ejemplos de cómo resolver problemas paso a paso, aprenden a seguir este patrón para nuevos problemas. Esto llevó a la creencia de que los modelos más grandes entrenados en vastos datos desarrollan naturalmente un razonamiento más avanzado. La fuerte conexión entre el tamaño del modelo y el rendimiento del razonamiento se convirtió en sabiduría aceptada. Los equipos invirtieron enormes recursos en la escala de habilidades de razonamiento utilizando el aprendizaje de refuerzo, creyendo que el poder computacional era la clave para el razonamiento avanzado.
Comprender el enfoque centrado en los datos
El aumento de los desafíos de IA centrados en datos La mentalidad de “más grande es mejor”. Este enfoque cambia el enfoque de la arquitectura de modelos para ingeniosamente ingeniosamente los datos utilizados para capacitar a los sistemas de IA. En lugar de tratar los datos como entrada fija, la metodología centrada en los datos ve los datos como material que se puede mejorar y optimizar para aumentar el rendimiento de la IA.
Andrew Ng, un líder en este campo, promueve la creación de prácticas de ingeniería sistemática para mejorar la calidad de los datos en lugar de ajustar el código o los modelos de escala. Esta filosofía reconoce que la calidad y la curación de los datos a menudo importan más que el tamaño del modelo. Las empresas que adoptan este enfoque muestran que los modelos más pequeños y bien capacitados pueden superar a los más grandes si están entrenados en conjuntos de datos de alta calidad y cuidadosamente preparados.
El enfoque centrado en los datos hace una pregunta diferente: “¿Cómo podemos mejorar nuestros datos?” En lugar de “¿cómo podemos hacer que el modelo sea más grande?” Esto significa crear mejores conjuntos de datos de capacitación, mejorar la calidad de los datos y desarrollar ingeniería de datos sistemática. En la IA centrada en los datos, el enfoque es comprender qué hace que los datos sean efectivos para tareas específicas, no solo recopilando más.
Este enfoque ha mostrado una gran promesa en el entrenamiento de pequeños pero potentes modelos de IA que utilizan pequeños conjuntos de datos y mucho menos cálculo. Los modelos PHI de Microsoft son un buen ejemplo de capacitación de modelos de lenguaje pequeños utilizando un enfoque centrado en los datos. Estos modelos se entrenan utilizando el aprendizaje curricular que se inspira principalmente en cómo los niños aprenden a través de ejemplos progresivamente más difíciles. Inicialmente, los modelos están entrenados con ejemplos fáciles, que luego se reemplazan gradualmente con otros más duros. Microsoft creó un conjunto de datos a partir de libros de texto, como se explica en su artículo “Los libros de texto son todo lo que necesita”. Esto ayudó a PHI-3 superar modelos como Gemma y GPT 3.5 de Google en tareas como comprensión del idioma, conocimiento general, problemas de matemáticas de la escuela primaria y respuesta de preguntas médicas.
A pesar del éxito del enfoque centrado en los datos, el razonamiento generalmente ha seguido siendo una característica de los grandes modelos de IA. Esto se debe a que el razonamiento requiere patrones complejos y conocimiento que los modelos a gran escala capturan más fácilmente. Sin embargo, esta creencia ha sido desafiada recientemente por el desarrollo del modelo de razonamiento PHI-4.
Estrategia innovadora de Phi-4-Rasoning
La condición PHI-4 muestra cómo el enfoque centrado en los datos se puede utilizar para entrenar pequeños modelos de razonamiento. El modelo fue construido mediante el ajuste de fino supervisado del modelo PHI-4 base en indicaciones y ejemplos de razonamiento cuidadosamente seleccionados y ejemplos de razonamiento generados con O3-Mini de OpenAI. La atención se centró en la calidad y la especificidad en lugar del tamaño del conjunto de datos. El modelo está entrenado utilizando aproximadamente 1.4 millones de indicaciones de alta calidad en lugar de miles de millones de genéricos. Los investigadores filtraron ejemplos para cubrir diferentes niveles de dificultad y tipos de razonamiento, asegurando la diversidad. Esta cuidadosa curación hizo que cada ejemplo de capacitación fuera propósito, enseñando el modelo de patrones de razonamiento específicos en lugar de solo aumentar el volumen de datos.
En el ajuste superior supervisado, el modelo está entrenado con demostraciones de razonamiento completas que involucran un proceso de pensamiento completo. Estas cadenas de razonamiento paso a paso ayudaron al modelo a aprender a desarrollar argumentos lógicos y resolver problemas sistemáticamente. Para mejorar aún más las habilidades de razonamiento del Modelo, se refina aún más con el aprendizaje de refuerzo en unos 6,000 problemas matemáticos de alta calidad con soluciones verificadas. Esto muestra que incluso pequeñas cantidades de aprendizaje de refuerzo enfocado pueden mejorar significativamente el razonamiento cuando se aplica a datos bien curados.
Rendimiento más allá de las expectativas
Los resultados demuestran que este enfoque centrado en los datos funciona. La raza PHI-4 supera a los modelos de peso abierto mucho más grandes como Deepseek-R1-Distill-Llama-70B y casi coincide con el profundo Deepseek-R1 completo, a pesar de ser mucho más pequeño. En la prueba AIME 2025 (un calificador de la Olimpiada de Matemáticas de EE. UU.), La conducción PHI-4 vence a Deepseek-R1, que tiene 671 mil millones de parámetros.
Estas ganancias van más allá de las matemáticas a la resolución de problemas científicos, la codificación, los algoritmos, la planificación y las tareas espaciales. Las mejoras de la transferencia de curación de datos cuidadosos a los puntos de referencia generales, lo que sugiere que este método construye habilidades de razonamiento fundamental en lugar de trucos específicos de tareas.
PHI-4 Razonamiento desafía la idea de que el razonamiento avanzado necesita un cálculo masivo. Un modelo de parámetros de 14 mil millones puede coincidir con el rendimiento de los modelos docenas de veces más grandes cuando se entrenan en datos cuidadosamente seleccionados. Esta eficiencia tiene consecuencias importantes para implementar la IA de razonamiento donde los recursos son limitados.
Implicaciones para el desarrollo de IA
El éxito de PHI-4-Rasoning indica un cambio en cómo se deben construir modelos de razonamiento AI. En lugar de centrarse principalmente en aumentar el tamaño del modelo, los equipos pueden obtener mejores resultados invirtiendo en calidad de datos y curación. Esto hace que el razonamiento avanzado sea más accesible para las organizaciones sin enormes presupuestos de cómputo.
El método centrado en los datos también abre nuevas rutas de investigación. El trabajo futuro puede centrarse en encontrar mejores indicaciones de capacitación, hacer demostraciones de razonamiento más ricas y comprender qué datos mejoran mejor el razonamiento. Estas direcciones pueden ser más productivas que solo construir modelos más grandes.
En términos más generales, esto puede ayudar a democratizar la IA. Si los modelos más pequeños capacitados en datos curados pueden coincidir con los modelos grandes, la IA avanzada está disponible para más desarrolladores y organizaciones. Esto también puede acelerar la adopción e innovación de la IA en áreas donde los modelos muy grandes no son prácticos.
El futuro de los modelos de razonamiento
PHI-4 Razonamiento establece un nuevo estándar para el desarrollo del modelo de razonamiento. Los futuros sistemas de IA probablemente equilibrarán la curación de datos cuidadosos con mejoras arquitectónicas. Este enfoque reconoce que tanto la calidad de los datos como el diseño del modelo son importantes, pero mejorar los datos puede dar ganancias más rápidas y rentables.
Esto también permite modelos de razonamiento especializados entrenados en datos específicos del dominio. En lugar de gigantes de uso general, los equipos pueden construir modelos enfocados que se destacan en campos particulares a través de la curación de datos específicos. Esto creará una IA más eficiente para usos específicos.
A medida que avanza la IA, las lecciones de la condición de PHI-4 influirán en no solo la capacitación del modelo de razonamiento sino también en el desarrollo de IA en general. El éxito de los límites de tamaño de la curación de datos sugiere que el progreso futuro radica en combinar la innovación del modelo con ingeniería de datos inteligente, en lugar de solo construir arquitecturas más grandes.
El resultado final
La conducción PHI-4 de Microsoft cambia la creencia común de que el razonamiento avanzado de IA necesita modelos muy grandes. En lugar de confiar en un tamaño más grande, este modelo utiliza un enfoque centrado en los datos con datos de entrenamiento de alta calidad y cuidadosamente elegidos. La conducción PHI-4 tiene solo 14 mil millones de parámetros, pero funciona tan bien como modelos mucho más grandes en tareas de razonamiento difíciles. Esto muestra que centrarse en mejores datos es más importante que simplemente aumentar el tamaño del modelo.
Esta nueva forma de capacitación hace que el razonamiento avanzado sea más eficiente y esté disponible para las organizaciones que no tienen grandes recursos informáticos. El éxito de la raza PHI-4 apunta a una nueva dirección en el desarrollo de IA. Se centra en mejorar la calidad de los datos, la capacitación inteligente y la ingeniería cuidadosa en lugar de solo hacer que los modelos sean más grandes.
Este enfoque puede ayudar a la IA a progresar más rápido, reducir los costos y permitir que más personas y empresas usen herramientas de IA poderosas. En el futuro, la IA probablemente crecerá combinando mejores modelos con mejores datos, lo que hace que la IA avanzada sea útil en muchas áreas especializadas.