Robótica de Géminis: el razonamiento de IA se encuentra con el mundo físico

-

spot_img

En los últimos años, la inteligencia artificial (IA) ha avanzado significativamente en varios campos, como el procesamiento del lenguaje natural (PNL) y la visión por computadora. Sin embargo, un gran desafío para la IA ha sido su integración en el mundo físico. Si bien la IA se ha destacado en el razonamiento y la resolución de problemas complejos, estos logros se han limitado en gran medida a los entornos digitales. Para permitir que la IA realice tareas físicas a través de la robótica, debe poseer una comprensión profunda del razonamiento espacial, la manipulación de objetos y la toma de decisiones. Para abordar este desafío, Google ha introducido Gemini Robotics, un conjunto de modelos desarrollados deliberadamente para robótica y IA encarnada. Construido en Gemini 2.0, estos modelos de IA fusionan el razonamiento avanzado de IA con el mundo físico para permitir que los robots llevaran a cabo una amplia gama de tareas complejas.

Comprender la robótica de Géminis

Gemini Robotics es un par de modelos AI construidos sobre la base de Gemini 2.0, un modelo de visión (VLM) de última generación capaz de procesar texto, imágenes, audio y video. Gemini Robotics es esencialmente una extensión de VLM en el modelo de acción-idioma de visión (VLA), que permite al modelo Gemini no solo comprender e interpretar las entradas visuales y procesar las instrucciones del lenguaje natural, sino también ejecutar acciones físicas en el mundo real. Esta combinación es crítica para la robótica, permitiendo que las máquinas no solo “ve” su entorno, sino que también lo entiendan en el contexto del lenguaje humano y ejecute la naturaleza compleja de las tareas del mundo real, desde una simple manipulación de objetos hasta actividades hábiles más intrincadas.

Una de las fortalezas clave de Gemini Robotics radica en su capacidad para generalizar en una variedad de tareas sin necesidad de reentrenamiento extenso. El modelo puede seguir instrucciones de vocabulario abierta, ajustarse a las variaciones en el entorno e incluso manejar tareas imprevistas que no formaron parte de sus datos de entrenamiento iniciales. Esto es particularmente importante para crear robots que pueden operar en entornos dinámicos e impredecibles como hogares o entornos industriales.

Leer  Nscale invertirá 2.500 millones de dólares en centros de datos del Reino Unido, impulsando la IA generativa y las ambiciones gubernamentales

Razonamiento incorporado

Un desafío importante en la robótica siempre ha sido la brecha entre el razonamiento digital y la interacción física. Si bien los humanos pueden comprender fácilmente las relaciones espaciales complejas e interactuar sin problemas con su entorno, los robots han luchado por replicar estas habilidades. Por ejemplo, los robots son limitados en su comprensión de la dinámica espacial, adaptándose a nuevas situaciones y manejando interacciones impredecibles del mundo real. Para abordar estos desafíos, Gemini Robotics incorpora “razonamiento incorporado”, un proceso que permite que el sistema comprenda e interactúe con el mundo físico de una manera similar a la forma en que los humanos.

Por el contrario del razonamiento de IA en entornos digitales, el razonamiento incorporado implica varios componentes cruciales, como:

  • Detección y manipulación de objetos: El razonamiento incorporado permite que Gemini Robotics detecte e identifique objetos en su entorno, incluso cuando no se ven previamente. Puede predecir dónde captar objetos, determinar su estado y ejecutar movimientos como cajones de apertura, vertidos líquidos o papel plegable.
  • Trayectoria y predicción de agarre: El razonamiento incorporado permite a Gemini Robotics predecir las rutas más eficientes para el movimiento e identificar puntos óptimos para mantener objetos. Esta capacidad es esencial para las tareas que requieren precisión.
  • Entendimiento 3D: El razonamiento incorporado permite a los robots percibir y comprender los espacios tridimensionales. Esta capacidad es especialmente crucial para las tareas que requieren una manipulación espacial compleja, como plegar ropa o objetos de ensamblaje. Comprender 3D también permite a los robots sobresalir en tareas que involucran la correspondencia 3D de visión múltiple y las predicciones de cuadros limitados 3D. Estas habilidades podrían ser vitales para que los robots manejen con precisión los objetos.

Destera y adaptación: la clave para las tareas del mundo real

Si bien la detección y la comprensión de los objetos son críticos, el verdadero desafío de la robótica radica en realizar tareas hábiles que requieren habilidades motoras finas. Ya sea que se esté plegando un zorro de origami o jugando un juego de cartas, las tareas que requieren alta precisión y coordinación suelen estar más allá de la capacidad de la mayoría de los sistemas de IA. Sin embargo, Gemini Robotics ha sido diseñado específicamente para sobresalir en tales tareas.

  • Habilidades motoras finas: La capacidad del modelo para manejar tareas complejas, como plegar ropa, apilar objetos o jugar juegos, demuestra su destreza avanzada. Con el ajuste adicional, Géminis Robotics puede manejar tareas que requieren coordinación en múltiples grados de libertad, como usar ambos brazos para manipulaciones complejas.
  • Aprendizaje de pocos disparos: Géminis Robotics también presenta el concepto de aprendizaje de pocos disparos, lo que le permite aprender nuevas tareas con demostraciones mínimas. Por ejemplo, con tan solo 100 demostraciones, Gemini Robotics puede aprender a realizar una tarea que de otro modo podría requerir datos de capacitación extensos.
  • Adaptarse a nuevas realizaciones: Otra característica clave de Gemini Robotics es su capacidad para adaptarse a nuevas realizaciones de robots. Ya sea que se trate de un robot bi-brazo o un humanoide con un mayor número de juntas, el modelo puede controlar a la perfección varios tipos de cuerpos robóticos, lo que lo hace versátil y adaptable a diferentes configuraciones de hardware.
Leer  Cómo el Protocolo de contexto del modelo (MCP) está estandarizando la conectividad de IA con herramientas y datos

Control de disparo cero y adaptación rápida

Una de las características destacadas de Gemini Robotics es su capacidad para controlar los robots de forma de aprendizaje de disparo cero o de pocos disparos. El control de disparo cero se refiere a la capacidad de ejecutar tareas sin requerir capacitación específica para cada tarea individual, mientras que el aprendizaje de pocos disparos implica aprender de un pequeño conjunto de ejemplos.

  • Control de disparo cero a través de la generación de código: Géminis Robotics puede generar código para controlar los robots incluso cuando las acciones específicas requeridas nunca antes se han visto. Por ejemplo, cuando se le proporciona una descripción de la tarea de alto nivel, Gemini puede crear el código requerido para ejecutar la tarea utilizando sus capacidades de razonamiento para comprender la dinámica y el entorno físico.
  • Aprendizaje de pocos disparos: En los casos en que la tarea requiere una destreza más compleja, el modelo también puede aprender de las demostraciones e inmediatamente aplicar ese conocimiento para realizar la tarea de manera efectiva. Esta capacidad de adaptarse rápidamente a nuevas situaciones es un avance significativo en el control robótico, especialmente para entornos que requieren cambios constantes o imprevisibilidad.

Implicaciones futuras

Gemini Robotics es un avance vital para la robótica de uso general. Al combinar las capacidades de razonamiento de la IA con la destreza y la adaptabilidad de los robots, nos acerca al objetivo de crear robots que puedan integrarse fácilmente en la vida diaria y realizar una variedad de tareas que requieren interacción humana.

Las aplicaciones potenciales de estos modelos son enormes. En entornos industriales, Gemini Robotics podría usarse para tareas de ensamblaje, inspecciones y mantenimiento complejos. En los hogares, podría ayudar con las tareas, el cuidado y el entretenimiento personal. A medida que estos modelos continúan avanzando, es probable que los robots se conviertan en tecnologías generalizadas que podrían abrir nuevas posibilidades en múltiples sectores.

Leer  El papel de la IA en la edición de genes

El resultado final

Gemini Robotics es un conjunto de modelos construidos en Gemini 2.0, diseñado para permitir que los robots realicen un razonamiento incorporado. Estos modelos pueden ayudar a los ingenieros y desarrolladores a crear robots a IA que pueden entender e interactuar con el mundo físico de manera humana. Con la capacidad de realizar tareas complejas con alta precisión y flexibilidad, Gemini Robotics incorpora características como razonamiento incorporado, control de disparo cero y aprendizaje de pocos disparos. Estas capacidades permiten que los robots se adapten a su entorno sin la necesidad de un reentrenamiento extenso. Gemini Robotics tiene el potencial de transformar las industrias, desde la fabricación hasta la asistencia para el hogar, lo que hace que los robots sean más capaces y más seguros en las aplicaciones del mundo real. A medida que estos modelos continúan evolucionando, tienen el potencial de redefinir el futuro de la robótica.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares