Qwen 2.5 de Alibaba es el mejor modelo de código abierto en matemáticas y codificación

-

spot_img

Alibaba lanzó más de 100 modelos de IA de código abierto, incluido Qwen 2.5 72B, que supera a otros modelos de código abierto en pruebas comparativas de matemáticas y codificación.

Gran parte de la atención de la industria de la IA en los modelos de código abierto se ha centrado en los esfuerzos de Meta con Llama 3, pero Qwen 2.5 de Alibaba ha cerrado la brecha significativamente. La familia de modelos Qwen 2.5 recién lanzada tiene un tamaño que oscila entre 0,5 y 72 mil millones de parámetros con modelos base generalizados, así como modelos centrados en tareas muy específicas.

Alibaba dice que estos modelos vienen con “conocimientos mejorados y capacidades más sólidas en matemáticas y codificación” con modelos especializados centrados en codificación, matemáticas y múltiples modalidades que incluyen lenguaje, audio y visión.

Alibaba Cloud también anunció una actualización de su modelo insignia patentado Qwen-Max, que no ha lanzado como código abierto. Los puntos de referencia del Qwen 2.5 Max se ven bien, pero es el modelo Qwen 2.5 72B el que ha generado la mayor parte del entusiasmo entre los fanáticos del código abierto.

Qwen 2.5 72B instruye a los modelos en matemáticas y puntos de referencia de codificación. Fuente: Nube de Alibaba

Los puntos de referencia muestran que Qwen 2.5 72B vence al modelo insignia Llama 3.1 405B, mucho más grande de Meta, en varios frentes, especialmente en matemáticas y codificación. La brecha entre los modelos de código abierto y los propietarios como los de OpenAI y Google también se está cerrando rápidamente.

Los primeros usuarios de Qwen 2.5 72B muestran que el modelo está muy por debajo del Sonnet 3.5 e incluso superando Abierto AIModelos o1 en codificación.

Alibaba dice que todos estos nuevos modelos fueron entrenados en su conjunto de datos a gran escala que abarca hasta 18 billones de tokens. Los modelos Qwen 2.5 vienen con una ventana de contexto de hasta 128k y pueden generar salidas de hasta 8k tokens.

Leer  El papel de la IA en la edición de genes

El cambio a modelos gratuitos más pequeños, más capaces y de código abierto probablemente tendrá un impacto más amplio en muchos usuarios que los modelos más avanzados como o1. Las capacidades perimetrales y en el dispositivo de estos modelos significan que puede sacar mucho provecho de un modelo gratuito que se ejecuta en su computadora portátil.

El modelo Qwen 2.5 más pequeño ofrece codificación de nivel GPT-4 por una fracción del costo, o incluso gratis si tiene una computadora portátil decente para ejecutarla localmente.

Además de los LLM, Alibaba lanzó una actualización importante de su modelo de lenguaje de visión con la introducción de Qwen2-VL. Qwen2-VL puede comprender videos que duran más de 20 minutos y admite respuestas a preguntas basadas en videos.

Está diseñado para integrarse en teléfonos móviles, automóviles y robots para permitir la automatización de operaciones que requieren comprensión visual.

Alibaba también presentó un nuevo modelo de texto a video como parte de su generador de imágenes, la gran familia de modelos Tongyi Wanxiang. Tongyi Wanxiang AI Video puede producir contenido de vídeo de calidad cinematográfica y animación 3D con varios estilos artísticos basados ​​en indicaciones de texto.

Las demostraciones parecen impresionantes y la herramienta es de uso gratuito, aunque necesitarás un número de móvil chino para registrarte aquí. Sora tendrá una competencia seria cuando OpenAI finalmente lo lance, o si lo hace.

Leer  ¿Por qué LLMS por encima de los acertijos fáciles pero renuncia a los duros?

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares