¿Puede una sola pila de IA planificar como un investigador, razonar sobre escenas y transferir movimientos a través de diferentes robots, sin reestructurar desde cero? Gemini Robotics 1.5 de Google Deepmind dice que sí, dividiendo inteligencia encarnada en dos modelos: Gemini Robotics-ER 1.5 para razonamiento incorporado de alto nivel (comprensión espacial, planificación, estimación de progreso/éxito, uso de herramientas) y Gemini Robotics 1.5 para control de visuomotores de bajo nivel. El sistema se dirige a tareas de larga duración, en el mundo real (por ejemplo, embalaje de múltiples pasos, clasificación de residuos con reglas locales) e introduce la transferencia de movimiento para reutilizar datos en plataformas heterogéneas.
¿Cuál es realmente la pila?
Gemini Robotics-Er 1.5 (razonador/orquestador): un planificador multimodal que ingiere imágenes/video (y opcionalmente audio), referencias de motivos a través de puntos 2D, rastrea el progreso e invoca herramientas externas (por ejemplo, búsqueda web o API locales) para obtener restricciones antes de emitir subpasas. Está disponible a través de la API de Géminis en Google AI Studio. Gemini Robotics 1.5 (controlador VLA): un modelo de acción-lenguaje de visión que convierte las instrucciones y percepción en los comandos del motor, produciendo rastros explícitos de “pensamiento antes de actuar” para descomponer tareas largas en habilidades de horario corto. La disponibilidad se limita a los socios seleccionados durante el despliegue inicial.
¿Por qué dividir la cognición del control?
Los VLA anteriores de extremo a extremo (acción-lenguaje de visión) luchan por planificar con sólida, verificar el éxito y generalizar a través de realizaciones. Gemini Robotics 1.5 aísla esas preocupaciones: Gemini Robotics-ER 1.5 maneja la deliberación (razonamiento de la escena, sub-gol, detección de éxito), mientras que el VLA se especializa en la ejecución (control visuomotor de circuito cerrado). Esta modularidad mejora la interpretabilidad (trazas internas visibles), la recuperación de errores y la confiabilidad del horizonte largo.
Transferencia de movimiento a través de realizaciones
Una contribución central es la transferencia de movimiento (MT): capacitar al VLA en una representación de movimiento unificada construida a partir de datos de robots heterogéneos (ALOHA, Bi-Arm Franka y Apptronik Apollo, por lo que las habilidades aprendidas en una plataforma pueden transferir cero disparos a otra. Esto reduce la recopilación de datos por robot y reduce las brechas SIM a Realy al reutilizar los antecedentes de los bodimentos cruzados.
Señales cuantitativas
El equipo de investigación mostró comparaciones A/B controladas en hardware real y escenas de Mujoco alineadas. Esto incluye:
Generalización: Robotics 1.5 supera las líneas de base de robótica de Géminis previa en la instrucción siguiente, generalización de acción, generalización visual y generalización de tareas en las tres plataformas. Habilidades de robot cero de disparo: MT produce ganancias medibles en progreso y éxito al transferir habilidades a través de realizaciones (por ejemplo, Franka → Aloha, Aloha → Apolo), en lugar de simplemente mejorar el progreso parcial. “Pensar” mejora la actuación: habilitar las trazas de pensamiento de VLA aumenta la finalización de la tarea del horizonte largo y estabiliza las revisiones del plan de mitad de rollo. Las ganancias del agente de extremo a extremo: el emparejamiento de Gemini Robotics-ER 1.5 con el agente VLA mejora sustancialmente el progreso en tareas de múltiples pasos (por ejemplo, organización de escritorio, secuencias de estilo de cocina) versus un orquestador de línea base Gemini-2.5-Flash.
Seguridad y evaluación
Deepmind Research Team destaca los controles en capas: diálogo/planificación alineado por políticas, base consciente de la seguridad (por ejemplo, no apuntando a objetos peligrosos), límites físicos de bajo nivel y suites de evaluación ampliada (por ejemplo, pruebas de escenario de estilo ASIMOV/ASIMOV y tamizado rojo automático a fallas en el borde de los bordes). El objetivo es atrapar con posibilidades alucinadas o objetos inexistentes antes de la actuación.
Contexto competitivo/de la industria
Gemini Robotics 1.5 es un cambio de la robótica de “instrucción única” hacia la autonomía de la agente y los múltiples pasos con uso explícito de la web/herramienta y el aprendizaje multiplataforma, un conjunto de capacidad relevante para la robótica industrial e industrial. El acceso a los primeros socios se centra en proveedores de robóticos establecidos y plataformas humanoides.
Control de llave
Arquitectura de dos modelos (ER ↔ VLA): Géminis Robotics-ER 1.5 Maneja razonamiento encarnado: base espacial, planificación, estimación de éxito/progreso, llamadas de herramientas, mientras que la robotics 1.5 es el ejecutor de acción-lenguaje de visión que emite comandos del motor. Control de “pensamiento antes de actuar”: el VLA produce razonamiento/trazas intermedios explícitos durante la ejecución, mejorando la descomposición del horizonte largo y la adaptación de la tarea media. Transferencia de movimiento a través de realizaciones: un solo punto de control de VLA reutiliza las habilidades a través de robots heterogéneos (ALOHA, Bi-Arm Franka, Apptronik Apollo), que permite la ejecución de robot cero o pocos disparos en lugar de reentrenamiento por plataforma. Planificación acuática de herramientas: ER 1.5 puede invocar herramientas externas (por ejemplo, búsqueda web) para obtener restricciones, luego planes de condición: EG, empacar después de verificar el clima local o aplicar reglas de reciclaje específicas de la ciudad. Mejoras cuantificadas sobre líneas de base anteriores: el informe de tecnología documenta instrucción más alta/acción/generalización visual/tarea y mejor progreso/éxito en hardware real y simuladores alineados; Los resultados cubren transferencias cruzadas y tareas de horizonte largo. Disponibilidad y acceso: ER 1.5 está disponible a través de la API Gemini (Google AI Studio) con documentos, ejemplos y perillas de vista previa; Robotics 1.5 (VLA) se limita a socios seleccionados con una lista de espera pública. Postura de seguridad y evaluación: DeepMind resalta las salvaguardas en capas (planificación alineada en políticas, base de seguridad, límites físicos) y un punto de referencia ASIMOV mejorado más evaluaciones adversas para sondear comportamientos de riesgo y posibilidades alucinadas.
Resumen
Gemini Robotics 1.5 operacionaliza una separación limpia del razonamiento y el control incorporados, agrega transferencia de movimiento a los datos de reciclaje a través de los robots y muestra la superficie de razonamiento (conexión a tierra de punto, estimación de progreso/éxito, llamadas de herramientas) a los desarrolladores a través de la API de Gemini. Para los equipos que construyen agentes del mundo real, el diseño reduce la carga de datos por plataforma y fortalece la confiabilidad del horizonte largo, mientras mantiene la seguridad en alcance con suites de prueba dedicadas y barandillas.
Consulte el documento y los detalles técnicos. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial