OpenAI no lanzó ningún modelo nuevo en su evento Dev Day, pero las nuevas funciones de API entusiasmarán a los desarrolladores que quieran utilizar sus modelos para crear aplicaciones potentes.
OpenAI ha tenido unas semanas difíciles con su CTO, Mira Murati, y otros investigadores principales que se unieron a la lista cada vez mayor de ex empleados. La compañía está bajo una presión cada vez mayor por parte de otros modelos emblemáticos, incluidos los modelos de código abierto que ofrecen a los desarrolladores opciones más baratas y altamente capaces.
Las nuevas características que OpenAI presentó fueron la API en tiempo real (en versión beta), el ajuste de la visión y herramientas para aumentar la eficiencia, como el almacenamiento en caché rápido y la destilación de modelos.
API en tiempo real
La API en tiempo real es la característica nueva más interesante, aunque en versión beta. Permite a los desarrolladores crear experiencias de voz a voz de baja latencia en sus aplicaciones sin utilizar modelos separados para el reconocimiento de voz y la conversión de texto a voz.
Con esta API, los desarrolladores ahora pueden crear aplicaciones que permitan conversaciones en tiempo real con IA, como asistentes de voz o herramientas de aprendizaje de idiomas, todo a través de una única llamada API. No es la experiencia perfecta que ofrece el modo de voz avanzado del GPT-4o, pero se acerca.
Sin embargo, no es barato, aproximadamente $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio.
La nueva API en tiempo real de Abierto AI es increible…
Míralo pedir 400 fresas LLAMANDO a la tienda con twillio. Todo con voz. 🍓🎤 pic.twitter.com/J2BBoL9yFv
-Ty (@FieroTy) 1 de octubre de 2024
Ajuste de la visión
El ajuste de la visión dentro de la API permite a los desarrolladores mejorar la capacidad de sus modelos para comprender e interactuar con imágenes. Al ajustar GPT-4o mediante imágenes, los desarrolladores pueden crear aplicaciones que sobresalgan en tareas como la búsqueda visual o la detección de objetos.
Esta característica ya está siendo aprovechada por empresas como Grab, que mejoró la precisión de su servicio de mapas ajustando el modelo para reconocer señales de tráfico a partir de imágenes a nivel de calle.
OpenAI también dio un ejemplo de cómo GPT-4o podría generar contenido adicional para un sitio web después de haberlo ajustado para que coincida estilísticamente con el contenido existente del sitio.
Almacenamiento en caché rápido
Para mejorar la rentabilidad, OpenAI introdujo el almacenamiento en caché rápido, una herramienta que reduce el costo y la latencia de las llamadas API de uso frecuente. Al reutilizar insumos procesados recientemente, los desarrolladores pueden reducir los costos en un 50 % y reducir los tiempos de respuesta. Esta característica es especialmente útil para aplicaciones que requieren conversaciones largas o contexto repetido, como chatbots y herramientas de servicio al cliente.
El uso de entradas almacenadas en caché podría ahorrar hasta un 50 % en los costos de los tokens de entrada.

Destilación modelo
La destilación de modelos permite a los desarrolladores ajustar modelos más pequeños y más rentables, utilizando los resultados de modelos más grandes y capaces. Esto cambia las reglas del juego porque, anteriormente, la destilación requería múltiples pasos y herramientas desconectadas, lo que lo convertía en un proceso que requería mucho tiempo y era propenso a errores.
Antes de la función integrada de destilación de modelos de OpenAI, los desarrolladores tenían que orquestar manualmente diferentes partes del proceso, como generar datos a partir de modelos más grandes, preparar conjuntos de datos de ajuste fino y medir el rendimiento con varias herramientas.
Los desarrolladores ahora pueden almacenar automáticamente pares de salida de modelos más grandes como GPT-4o y usarlos para ajustar modelos más pequeños como GPT-4o-mini. Todo el proceso de creación, ajuste y evaluación de conjuntos de datos se puede realizar de una manera más estructurada, automatizada y eficiente.
El proceso de desarrollo optimizado, la menor latencia y los costos reducidos harán que el modelo GPT-4o de OpenAI sea una perspectiva atractiva para los desarrolladores que buscan implementar aplicaciones potentes rápidamente. Será interesante ver qué aplicaciones hacen posibles las características multimodales.