Google Deepmind ha presentado Géminis robótica en el dispositivouna versión compacta y local de su poderoso modelo de acción-idioma de visión (VLA), que lleva la inteligencia robótica avanzada directamente a los dispositivos. Esto marca un paso clave adelante en el campo de la IA incorporada al eliminar la necesidad de conectividad de la nube continua mientras se mantiene la flexibilidad, la generalidad y la alta precisión asociada con la familia del modelo Gemini.
IA local para la destreza robótica del mundo real
Tradicionalmente, los modelos VLA de alta capacidad se han basado en el procesamiento basado en la nube debido a las limitaciones computacionales y de memoria. Con Gemini Robotics en el dispositivo, DeepMind presenta una arquitectura que opera completamente en GPU locales integradas dentro de los robots, apoyando escenarios sensibles a la latencia y con el ancho de banda con el ancho de banda como hogares, hospitales y pisos de fabricación.
El modelo en dispositivo conserva las fortalezas centrales de Géminis Robótica: la capacidad de comprender las instrucciones humanas, percibir la entrada multimodal (visual y textual) y generar acciones motoras en tiempo real. También es altamente eficiente en la muestra, que requiere solo 50 a 100 demostraciones para generalizar nuevas habilidades, por lo que es práctica para la implementación del mundo real en entornos variados.
Características centrales de Géminis Robotics en el dispositivo
- Ejecución totalmente local: El modelo se ejecuta directamente en la GPU a bordo del robot, lo que permite el control de circuito cerrado sin dependencia de Internet.
- Delteridad a dos manos: Puede ejecutar tareas complejas y coordinadas de manipulación bimanual, gracias a su preparación previa en el conjunto de datos ALOHA y la finalización posterior.
- Compatibilidad de múltiples emboderaciones: A pesar de estar entrenado en robots específicos, el modelo se generaliza en diferentes plataformas, incluidos los humanoides y los manipuladores industriales de doble brazo.
- Adaptación de pocos disparos: El modelo respalda el aprendizaje rápido de nuevas tareas de un puñado de demostraciones, reduciendo drásticamente el tiempo de desarrollo.
Capacidades y aplicaciones del mundo real
Las tareas de manipulación diestros, como la ropa plegable, los componentes de ensamblaje o los frascos de apertura, exigen un control motor de grano fino e integración de retroalimentación en tiempo real. Gemini Robotics On-Device permite estas capacidades al tiempo que reduce el retraso de la comunicación y la mejora de la capacidad de respuesta. Esto es particularmente crítico para las implementaciones de borde donde la conectividad no es confiable o la privacidad de los datos es una preocupación.
Las aplicaciones potenciales incluyen:
- Robots de asistencia para el hogar capaces de realizar tareas diarias.
- Robots de salud que ayudan en rehabilitación o cuidado de ancianos.
- Sistemas de automatización industrial que requieren trabajadores de línea de ensamblaje adaptativo.
Integración de SDK y Mujoco para desarrolladores
Junto a la modelo, DeepMind ha lanzado un Géminis Robótica SDK Eso proporciona herramientas para probar, ajustar e integrar el modelo en el dispositivo en flujos de trabajo personalizados. El SDK admite:
- Capacitación de tuberías para la sintonización específica de la tarea.
- Compatibilidad con varios tipos de robot y configuraciones de cámara.
- Evaluación dentro del Mujoco Física Simulador, que ha sido de código abierto con nuevos puntos de referencia diseñados específicamente para evaluar las tareas de destreza bimanual.
La combinación de inferencia local, herramientas de desarrollador y entornos de simulación robustos posiciona Gemini Robotics en el dispositivo como una solución modular y extensible para investigadores y desarrolladores de robótica.
Géminis Robotics y el futuro de la IA encarnada en el dispositivo
La iniciativa de robótica de Géminis más amplia se ha centrado en unificar la percepción, el razonamiento y la acción en entornos físicos. Esta liberación en el dispositivo une la brecha entre la investigación de IA fundamental y los sistemas desplegables que pueden funcionar de manera autónoma en el mundo real.
Si bien los grandes modelos VLA como Gemini 1.5 han demostrado una generalización impresionante en las modalidades, su latencia de inferencia y su dependencia de la nube han limitado su aplicabilidad en la robótica. La versión en servicio aborda estas limitaciones con gráficos de cómputo optimizados, compresión del modelo y arquitecturas específicas de tareas adaptadas para GPU integradas.
Implicaciones más amplias para la robótica y la implementación de IA
Al desacoplar los poderosos modelos de IA de la nube, Gemini Robotics en el dispositivo allana el camino para la robótica escalable y preservadora de la privacidad. Se alinea con una tendencia creciente hacia Edge AI, donde las cargas de trabajo computacionales se cambian más a las fuentes de datos. Esto no solo mejora la seguridad y la capacidad de respuesta, sino que también garantiza que los agentes robóticos puedan operar en entornos con estrictos requisitos de latencia o privacidad.
A medida que DeepMind continúa ampliando el acceso a su pila de robótica, incluida la apertura de su plataforma de simulación y la liberación de puntos de referencia, los investigadores de todo el mundo ahora están mejor equipados para experimentar, iterar y construir sistemas robóticos confiables y en tiempo real.
Mira el Papel y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.