OpenAI presenta API en tiempo real y otras funciones para desarrolladores

-

spot_img

OpenAI no lanzó ningún modelo nuevo en su evento Dev Day, pero las nuevas funciones de API entusiasmarán a los desarrolladores que quieran utilizar sus modelos para crear aplicaciones potentes.

OpenAI ha tenido unas semanas difíciles con su CTO, Mira Murati, y otros investigadores principales que se unieron a la lista cada vez mayor de ex empleados. La compañía está bajo una presión cada vez mayor por parte de otros modelos emblemáticos, incluidos los modelos de código abierto que ofrecen a los desarrolladores opciones más baratas y altamente capaces.

Las nuevas características que OpenAI presentó fueron la API en tiempo real (en versión beta), el ajuste de la visión y herramientas para aumentar la eficiencia, como el almacenamiento en caché rápido y la destilación de modelos.

API en tiempo real

La API en tiempo real es la característica nueva más interesante, aunque en versión beta. Permite a los desarrolladores crear experiencias de voz a voz de baja latencia en sus aplicaciones sin utilizar modelos separados para el reconocimiento de voz y la conversión de texto a voz.

Con esta API, los desarrolladores ahora pueden crear aplicaciones que permitan conversaciones en tiempo real con IA, como asistentes de voz o herramientas de aprendizaje de idiomas, todo a través de una única llamada API. No es la experiencia perfecta que ofrece el modo de voz avanzado del GPT-4o, pero se acerca.

Sin embargo, no es barato, aproximadamente $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio.

Ajuste de la visión

El ajuste de la visión dentro de la API permite a los desarrolladores mejorar la capacidad de sus modelos para comprender e interactuar con imágenes. Al ajustar GPT-4o mediante imágenes, los desarrolladores pueden crear aplicaciones que sobresalgan en tareas como la búsqueda visual o la detección de objetos.

Leer  El grupo de trabajo ChatGPT de la UE publica un informe sobre la privacidad de los datos

Esta característica ya está siendo aprovechada por empresas como Grab, que mejoró la precisión de su servicio de mapas ajustando el modelo para reconocer señales de tráfico a partir de imágenes a nivel de calle.

OpenAI también dio un ejemplo de cómo GPT-4o podría generar contenido adicional para un sitio web después de haberlo ajustado para que coincida estilísticamente con el contenido existente del sitio.

Almacenamiento en caché rápido

Para mejorar la rentabilidad, OpenAI introdujo el almacenamiento en caché rápido, una herramienta que reduce el costo y la latencia de las llamadas API de uso frecuente. Al reutilizar insumos procesados ​​recientemente, los desarrolladores pueden reducir los costos en un 50 % y reducir los tiempos de respuesta. Esta característica es especialmente útil para aplicaciones que requieren conversaciones largas o contexto repetido, como chatbots y herramientas de servicio al cliente.

El uso de entradas almacenadas en caché podría ahorrar hasta un 50 % en los costos de los tokens de entrada.

Comparación de precios de tokens de entrada almacenados en caché y sin caché para la API de OpenAI. Fuente: OpenAI

Destilación modelo

La destilación de modelos permite a los desarrolladores ajustar modelos más pequeños y más rentables, utilizando los resultados de modelos más grandes y capaces. Esto cambia las reglas del juego porque, anteriormente, la destilación requería múltiples pasos y herramientas desconectadas, lo que lo convertía en un proceso que requería mucho tiempo y era propenso a errores.

Antes de la función integrada de destilación de modelos de OpenAI, los desarrolladores tenían que orquestar manualmente diferentes partes del proceso, como generar datos a partir de modelos más grandes, preparar conjuntos de datos de ajuste fino y medir el rendimiento con varias herramientas.

Los desarrolladores ahora pueden almacenar automáticamente pares de salida de modelos más grandes como GPT-4o y usarlos para ajustar modelos más pequeños como GPT-4o-mini. Todo el proceso de creación, ajuste y evaluación de conjuntos de datos se puede realizar de una manera más estructurada, automatizada y eficiente.

Leer  La industria del juego se enfrenta a una crisis de la mediana edad: ¿es la IA su futuro?

El proceso de desarrollo optimizado, la menor latencia y los costos reducidos harán que el modelo GPT-4o de OpenAI sea una perspectiva atractiva para los desarrolladores que buscan implementar aplicaciones potentes rápidamente. Será interesante ver qué aplicaciones hacen posibles las características multimodales.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares