Tülu 3 de Allen Ai se convirtió en el inesperado rival de Deepseek

-

spot_img

Los titulares siguen llegando. Los modelos de Deepseek han sido desafiantes puntos de referencia, estableciendo nuevos estándares y haciendo mucho ruido. Pero algo interesante acaba de pasar en la escena de investigación de IA que también vale la pena.

Allen Ai lanzó en silencio su nueva familia de modelos Tülu 3, y su versión de parámetros 405B no solo compite con Deepseek, está coincidiendo o venciendo en puntos de referencia clave.

Pongamos esto en perspectiva.

El modelo 405B Tülu 3 se enfrentará a los mejores artistas como Deepseek V3 en una variedad de tareas. Estamos viendo un rendimiento comparable o superior en áreas como problemas de matemáticas, desafíos de codificación y seguimiento preciso de instrucción. Y también lo están haciendo con un enfoque completamente abierto.

Han lanzado la tubería de capacitación completa, el código e incluso su nuevo método de aprendizaje de refuerzo llamado aprendizaje de refuerzo con recompensas verificables (RLVR) que lo hicieron posible.

Los desarrollos como estos en las últimas semanas realmente están cambiando la forma en que ocurre el desarrollo de IA de primer nivel. Cuando un modelo de código abierto completamente abierto puede coincidir con los mejores modelos cerrados, abre posibilidades que previamente estaban bloqueadas detrás de las paredes corporativas privadas.

La batalla técnica

¿Qué hizo que Tülu 3 se destaque? Se reduce a un proceso único de entrenamiento de cuatro etapas que va más allá de los enfoques tradicionales.

Veamos cómo Allen Ai construyó este modelo:

Etapa 1: Selección de datos estratégicos

El equipo sabía que la calidad del modelo comienza con la calidad de los datos. Combinaron conjuntos de datos establecidos como Wildchat y Open Assistant con contenido generado. Pero aquí está la visión clave: no solo agregaron datos: crearon conjuntos de datos específicos para habilidades específicas como razonamiento matemático y competencia de codificación.

Etapa 2: Construyendo mejores respuestas

En la segunda etapa, Allen AI se centró en enseñar sus habilidades específicas del modelo. Crearon diferentes conjuntos de datos de capacitación, algunos para matemáticas, otros para la codificación y más para tareas generales. Al probar estas combinaciones repetidamente, podían ver exactamente dónde se destacaba el modelo y dónde necesitaba trabajar. Este proceso iterativo reveló el verdadero potencial de lo que Tülu 3 podría lograr en cada área.

Etapa 3: Aprendiendo de las comparaciones

Aquí es donde Allen Ai se volvió creativo. Construyeron un sistema que podría comparar instantáneamente las respuestas de Tülu 3 con otros modelos principales. Pero también resolvieron un problema persistente en la IA: la tendencia de los modelos a escribir respuestas largas solo por la longitud. Su enfoque, utilizando la optimización de preferencia directa (DPO) de longitud, significaba que el modelo aprendió a valorar la calidad sobre la cantidad. El resultado? Respuestas que son precisas y decididas.

Leer  X-CLR: Mejora del reconocimiento de imágenes con nuevas funciones de pérdida de contrastes

Cuando los modelos de IA aprenden de las preferencias (qué respuesta es mejor, A o B?), Tienden a desarrollar un sesgo frustrante: comienzan a pensar que las respuestas más largas siempre son mejores. Es como si estuvieran tratando de ganar diciendo más en lugar de decir bien las cosas.

DPO normalizado para la longitud soluciona esto ajustando cómo el modelo aprende de las preferencias. En lugar de solo mirar qué respuesta se prefirió, tiene en cuenta la duración de cada respuesta. Piense en ello como juzgar las respuestas por su calidad por palabra, no solo su impacto total.

¿Por qué importa esto? Porque ayuda a Tülu 3 a aprender a ser preciso y eficiente. En lugar de respuestas de relleno con palabras adicionales para parecer más completas, aprende a ofrecer valor en cualquier longitud realmente necesaria.

Esto puede parecer un pequeño detalle, pero es crucial para la construcción de IA que se comunica naturalmente. Los mejores expertos humanos saben cuándo ser conciso y cuándo elaborar, y eso es exactamente lo que el DPO normalizado por la longitud ayuda a enseñar al modelo.

Etapa 4: La innovación RLVR

Este es el avance técnico que merece atención. RLVR reemplaza los modelos de recompensa subjetivos con verificación de concreto.

La mayoría de los modelos de IA aprenden a través de un complejo sistema de modelos de recompensa, esencialmente conjeturas educadas sobre lo que hace una buena respuesta. Pero Allen Ai tomó un camino diferente con RLVR.

Piense en cómo entramos actualmente los modelos de IA. Por lo general, necesitamos otros modelos de IA (llamados modelos de recompensa) para juzgar si una respuesta es buena o no. Es subjetivo, complejo y a menudo inconsistente. Algunas respuestas pueden parecer buenas, pero contienen errores sutiles que pasan.

RLVR voltea este enfoque sobre su cabeza. En lugar de confiar en juicios subjetivos, utiliza resultados concretos y verificables. Cuando el modelo intenta un problema matemático, no hay área gris: la respuesta es correcta o incorrecta. Cuando escribe código, ese código se ejecuta correctamente o no lo hace.

Aquí es donde se pone interesante:

  • El modelo recibe comentarios inmediatos y binarios: 10 puntos para respuestas correctas, 0 para las incorrectas
  • No hay espacio para el crédito parcial o la evaluación difusa
  • El aprendizaje se enfoca y precisa
  • El modelo aprende a priorizar la precisión sobre las respuestas de sonido plausible pero incorrectas

Entrenamiento RLVR (Allen AI)

¿Los resultados? Tülu 3 mostró mejoras significativas en las tareas donde la corrección es más importante. Su desempeño en el razonamiento matemático (punto de referencia GSM8K) y los desafíos de codificación aumentaron notablemente. Incluso su seguimiento de instrucciones se volvió más preciso porque el modelo aprendió a valorar la precisión concreta sobre respuestas aproximadas.

Leer  Advertencia de WhatsApp: los padres del Reino Unido estafaron por £ 500k por Ai que finge ser sus hijos

Lo que hace que esto sea particularmente emocionante es cómo cambia el juego para la IA de código abierto. Los enfoques anteriores a menudo luchaban por igualar la precisión de los modelos cerrados en tareas técnicas. RLVR muestra que con el enfoque de entrenamiento correcto, los modelos de código abierto pueden lograr ese mismo nivel de confiabilidad.

Una mirada a los números

La versión de parámetro 405B de Tülu 3 compite directamente con los mejores modelos en el campo. Examinemos dónde se destaca y qué significa esto para la IA de código abierto.

Matemáticas

Tülu 3 se destaca en un razonamiento matemático complejo. En puntos de referencia como GSM8K y Math, coincide con el rendimiento de Deepseek. El modelo maneja problemas de varios pasos y muestra fuertes capacidades de razonamiento matemático.

Código

Los resultados de la codificación son igualmente impresionantes. Gracias al entrenamiento RLVR, Tülu 3 escribe código que resuelve problemas de manera efectiva. Su fuerza radica en comprender las instrucciones de codificación y producir soluciones funcionales.

Instrucción precisa siguiendo

La capacidad del modelo para seguir las instrucciones se destaca como una fuerza central. Si bien muchos modelos se aproximan o generalizan las instrucciones, Tülu 3 demuestra una precisión notable en la ejecución exactamente de lo que se pregunta.

Abrir la caja negra del desarrollo de IA

Allen Ai lanzó un modelo poderoso y su proceso de desarrollo completo.

Cada aspecto del proceso de capacitación está documentado y accesible. Desde el enfoque de cuatro etapas hasta los métodos de preparación de datos y la implementación de RLVR: todo el proceso se abre para el estudio y la replicación. Esta transparencia establece un nuevo estándar en el desarrollo de IA de alto rendimiento.

Los desarrolladores reciben recursos integrales:

  • Tuberías de entrenamiento completas
  • Herramientas de procesamiento de datos
  • Marcos de evaluación
  • Especificaciones de implementación

Esto permite que los equipos:

  • Modificar procesos de capacitación
  • Adaptar métodos para necesidades específicas
  • Construir sobre enfoques probados
  • Crear implementaciones especializadas

Este enfoque abierto acelera la innovación en todo el campo. Los investigadores pueden basarse en métodos verificados, mientras que los desarrolladores pueden centrarse en las mejoras en lugar de comenzar desde cero.

El surgimiento de la excelencia de código abierto

El éxito de Tülu 3 es un gran momento para el desarrollo abierto de IA. Cuando los modelos de código abierto coinciden o superan las alternativas privadas, cambia fundamentalmente la industria. Los equipos de investigación en todo el mundo obtienen acceso a métodos probados, aceleran su trabajo y generan nuevas innovaciones. Los laboratorios de IA privados deberán adaptarse, ya sea aumentando la transparencia o empujando aún más los límites técnicos.

Leer  Cómo el agente de IA automotriz de Google Cloud está transformando la experiencia en el automóvil con Mercedes-Benz

Mirando hacia el futuro, los avances de Tülu 3 en recompensas verificables y capacitación en varias etapas sugieren lo que viene. Los equipos pueden basarse en estas bases, potencialmente empujando el rendimiento aún más alto. El código existe, los métodos están documentados y ha comenzado una nueva ola de desarrollo de IA. Para los desarrolladores e investigadores, la oportunidad de experimentar y mejorar estos métodos marca el comienzo de un capítulo emocionante en el desarrollo de la IA.

Preguntas frecuentes (preguntas frecuentes) sobre Tülu 3

¿Qué es Tülu 3 y cuáles son sus características clave?

Tülu 3 es una familia de LLM de código abierto desarrollado por Allen Ai, construido sobre la arquitectura LLAMA 3.1. Viene en varios tamaños (parámetros 8B, 70B y 405B). Tülu 3 está diseñado para mejorar el rendimiento en diversas tareas que incluyen conocimiento, razonamiento, matemáticas, codificación, seguimiento de instrucciones y seguridad.

¿Cuál es el proceso de capacitación para Tülu 3 y qué datos se utilizan?

El entrenamiento de Tülu 3 implica varias etapas clave. Primero, el equipo cura un conjunto diverso de indicaciones de conjuntos de datos públicos y datos sintéticos dirigidos a habilidades específicas, asegurando que los datos se descontamen contra los puntos de referencia. En segundo lugar, la Finetuning supervisada (SFT) se realiza en una combinación de datos de seguimiento de instrucciones, matemáticas y codificación. A continuación, la optimización de preferencia directa (DPO) se utiliza con datos de preferencia generados a través de la retroalimentación humana y LLM. Finalmente, el aprendizaje de refuerzo con recompensas verificables (RLVR) se usa para tareas con corrección medible. Tülu 3 utiliza conjuntos de datos seleccionados para cada etapa, incluidas las instrucciones impulsadas por personal, matemáticas y datos de código.

¿Cómo aborda Tülu 3 la seguridad y qué métricas se utilizan para evaluarla?

La seguridad es un componente central del desarrollo de Tülu 3, abordado durante todo el proceso de capacitación. Se utiliza un conjunto de datos específico de seguridad durante SFT, que se encuentra en gran medida ortogonal a otros datos orientados a tareas.

¿Qué es RLVR?

RLVR es una técnica en la que el modelo está entrenado para optimizar contra una recompensa verificable, como la corrección de una respuesta. Esto difiere de RLHF tradicional que utiliza un modelo de recompensa.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares