La nueva tecnología de etiqueta automática de Voxel51 promete reducir los costos de anotación en 100,000x

-

spot_img

Un nuevo estudio innovador de la inicio de la visión por computadora Voxel51 sugiere que el modelo de anotación de datos tradicional está a punto de ser volcado. En la investigación publicada hoy, la compañía informa que su nuevo sistema de etiquetado automático logra hasta el 95% de la precisión a nivel humano, mientras que es 5,000x más rápido y hasta 100,000x más barato que el etiquetado manual.

El estudio comparó modelos de fundaciones como Yolo-World y Grounding Dino en conjuntos de datos conocidos que incluyen Coco, LVIS, BDD100K y VOC. Sorprendentemente, en muchos escenarios del mundo real, modelos entrenados exclusivamente en etiquetas generadas por IA realizadas a la par, o incluso mejor que, aquellas entrenadas en etiquetas humanas. Para las empresas que construyen sistemas de visión por computadora, las implicaciones son enormes: se pueden ahorrar millones de dólares en costos de anotación, y los ciclos de desarrollo de modelos podrían reducirse de semanas a horas.

La nueva era de la anotación: desde el trabajo manual hasta las tuberías dirigidas por el modelo

Durante décadas, la anotación de datos ha sido un cuello de botella doloroso en el desarrollo de IA. Desde Imagenet hasta conjuntos de datos de vehículos autónomos, los equipos se han basado en vastas ejércitos de trabajadores humanos para dibujar cajas limitadas y objetos de segmento, un esfuerzo costoso y lento.

La lógica predominante era simple: más datos marcados en humanos = mejor ai. Pero la investigación de Voxel51 voltea esa suposición en la cabeza.

Su enfoque aprovecha los modelos de base previamente capacitados, algunos con capacidades de disparo cero, y los integra en una tubería que automatiza el etiquetado de rutina mientras usa el aprendizaje activo para marcar casos inciertos o complejos para la revisión humana. Este método reduce drásticamente tanto el tiempo como el costo.

Leer  La IA acelera el descubrimiento de compuestos crioprotectores para el transporte y almacenamiento de medicamentos

En una prueba, el etiquetado de 3,4 millones de objetos utilizando una GPU NVIDIA L40S tomó poco más de una hora y costó $ 1.18. Hacer lo mismo manualmente con AWS Sagemaker habría tomado casi 7,000 horas y costaría más de $ 124,000. En casos particularmente desafiantes, como la identificación de categorías raras en los conjuntos de datos de Coco o LVIS, ocasionalmente modelos marcados con autos superado sus homólogos marcados con humanos. Este sorprendente resultado puede provenir de los patrones de etiquetado consistentes de los modelos de fundaciones y su entrenamiento en datos de Internet a gran escala.

Inside Voxel51: el equipo remodelando los flujos de trabajo de IA Visual AI

Fundada en 2016 por el profesor Jason Corso y Brian Moore en la Universidad de Michigan, Voxel51, originalmente comenzó como una consultoría centrada en el análisis de video. Corso, un veterano en Vision and Robotics, ha publicado más de 150 artículos académicos y contribuye con un amplio código de código abierto a la comunidad de IA. Moore, un ex Ph.D. Estudiante de Corso, sirve como CEO.

El punto de inflexión se produjo cuando el equipo reconoció que la mayoría de los cuellos de botella de IA no estaban en el diseño del modelo, pero en los datos. Que la visión los inspiró a crear Cincuentauna plataforma diseñada para capacitar a los ingenieros para explorar, curar y optimizar los conjuntos de datos visuales de manera más eficiente.

Con los años, la compañía ha recaudado más de $ 45 millones, incluida una serie A de $ 12.5 millones y una Serie B de $ 30 millones dirigida por Bessemer Venture Partners. La adopción empresarial siguió, con clientes principales como LG Electronics, Bosch, Berkshire Gray, Planting de precisión y RIOS que integran las herramientas de Voxel51 en sus flujos de trabajo de IA de producción.

Leer  6 nuevas características de proyectos de chatgpt que necesita saber

De la herramienta a la plataforma: el papel en expansión de FiftyOne

FiftyOne ha crecido desde una herramienta simple de visualización del conjunto de datos a una plataforma de IA integral centrada en datos. Admite una amplia gama de formatos y esquemas de etiquetado (COCO, VOC Pascal, LVIS, BDD100K, imágenes abiertas) e integra perfectamente con marcos como TensorFlow y Pytorch.

Más que una herramienta de visualización, FiftyOne permite operaciones avanzadas: encontrar imágenes duplicadas, identificar muestras mal etiquetadas, surgir valores atípicos y medir modos de falla del modelo. Su ecosistema de complementos admite módulos personalizados para el reconocimiento de caracteres ópticos, preguntas y respuestas de video y análisis basado en la incrustación.

La versión Enterprise, los equipos de cincutyOne, introduce características de colaboración como control de versiones, permisos de acceso e integración con almacenamiento en la nube (p. Ej. En particular, Voxel51 también se asoció con V7 Labs para optimizar el flujo entre la curación del conjunto de datos y la anotación manual.

Repensar la industria de la anotación

La investigación de marcado automático de Voxel51 desafía los supuestos que sustentan una industria de anotaciones de casi $ 1B. En los flujos de trabajo tradicionales, cada imagen debe ser tocada por un proceso humano, un proceso costoso y a menudo redundante. Voxel51 argumenta que la mayor parte de este trabajo ahora puede ser eliminado.

Con su sistema, la mayoría de las imágenes están etiquetadas por IA, mientras que solo los casos de borde se intensifican a los humanos. Esta estrategia híbrida no solo reduce los costos, sino que también garantiza una mayor calidad general de datos, ya que el esfuerzo humano está reservado para las anotaciones más difíciles o valiosas.

Este cambio es paralelo a tendencias más amplias en el campo de IA hacia AI centrada en datos— Una metodología que se centra en optimizar los datos de capacitación en lugar de ajustar sin fin arquitecturas de modelos.

Leer  ¿Terapeutas demasiado caros? Por qué miles de mujeres están derramando sus secretos más profundos para chatgpt

Panorama competitivo y recepción de la industria

Los inversores como Bessemer ven VOXEL51 como la “capa de orquestación de datos” para la IA, por cómo las herramientas DevOps transformaron el desarrollo de software. Su herramienta de código abierto ha obtenido millones de descargas, y su comunidad incluye miles de desarrolladores y equipos de ML en todo el mundo.

Mientras que otras nuevas empresas como Snorkel AI, RoboFlow y Activeloop también se centran en los flujos de trabajo de datos, Voxel51 se destaca por su amplitud, ethos de código abierto e infraestructura de grado empresarial. En lugar de competir con los proveedores de anotaciones, la plataforma de Voxel51 los complementa, lo que hace que los servicios existentes sean más eficientes a través de la curación selectiva.

Implicaciones futuras

Las implicaciones a largo plazo son profundas. Si se adopta ampliamente, la metodología de Voxel51 podría reducir drásticamente la barrera de entrada para la visión por computadora, democratizando el campo para nuevas empresas e investigadores que carecen de vastos presupuestos de etiquetado.

Más allá de ahorrar costos, este enfoque también sienta las bases para sistemas de aprendizaje continuodonde los modelos en la producción marcan automáticamente las fallas, que luego se revisan, se vuelven a colocar y se doblan en los datos de capacitación, todo dentro de la misma tubería orquestada.

La visión más amplia de la compañía se alinea con la forma en que AI está evolucionando: no solo modelos más inteligentes, sino también flujos de trabajo más inteligentes. En esa visión, la anotación no está muerta, pero ya no es el dominio del trabajo de fuerza bruta. Es estratégico, selectivo e impulsado por la automatización.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares