El equipo de inteligencia física presenta MEM para robots: un sistema de memoria multiescala que brinda a los VLA de Gemma 3-4B un contexto de 15 minutos para tareas complejas

Las políticas robóticas de extremo a extremo actuales, específicamente los modelos Visión-Lenguaje-Acción (VLA), generalmente operan con una sola observación o una historia muy corta. Esta “falta de memoria” hace que las tareas de largo plazo, como limpiar una cocina o seguir una receta compleja, sean computacionalmente intratables o propensas al fracaso. Para abordar esto, investigadores de Physical Intelligence, Stanford, UC Berkeley y MIT han introducido la memoria incorporada multiescala (MEM).

https://www.pi.website/download/Mem.pdf

La arquitectura de memoria de doble escala

MEM factoriza la memoria robótica en dos escalas distintas para equilibrar el contexto semántico con las limitaciones de control en tiempo real.

(1) Memoria de vídeo a corto plazo

Para tareas que requieren una conciencia espacial detallada, como resolver autooclusiones o adaptar una comprensión, se requieren datos visuales densos. MEM utiliza un codificador de vídeo eficiente que amplía los Vision Transformers (ViT) estándar. Para mantener la inferencia en tiempo real (la ‘barrera del tiempo real’ de 380 ms), la arquitectura evita la atención conjunta en todos los parches. En cambio, utiliza Atención Separable Espacio-Tiempo, entrelazando atención espacial dentro de fotogramas con atención causal-temporal entre fotogramas cada cuarta capa.

La complejidad computacional se reduce de O(n2K2) a O(Kn2+nK2), donde n es el número de parches espaciales y K es el número de pasos de tiempo. Al colocar tokens de pasos de tiempo pasados ​​en las capas superiores, el modelo pasa solo la representación de la observación actual a la columna vertebral de VLA, manteniendo invariante el recuento de tokens en comparación con los modelos de fotograma único.

(2) Memoria del lenguaje a largo plazo

Para manejar tareas que duran hasta 15 minutos, MEM utiliza una representación basada en lenguaje para eventos semánticos. El sistema descompone la predicción de la acción como:

$$\pi(a_{t:t+H},l_{t+1},m_{t+1}|o_{tT:t},m_{t},g) \approx\pi_{LL}(a_{t:t+H}|o_{tK:t},l_{t+1},g)\pi_{HL}(l_{t+1},m_{t+1}|o_{t},m_{t},g)$$

Aquí, una política de alto nivel (πHL) mantiene un resumen de lenguaje en ejecución (mt) de eventos pasados ​​y genera instrucciones de subtarea (lt+1) para una política de bajo nivel (πLL). Esta memoria del lenguaje se entrena utilizando resúmenes generados por LLM que comprimen la información (por ejemplo, “coloqué tres tazones” en lugar de atributos individuales), lo que reduce el riesgo de cambios en la distribución de la inferencia de entrenamiento.

https://www.pi.website/download/Mem.pdf

Implementación y desempeño

El equipo de investigación integró MEM en el VLA π0.6, que se inicializa a partir de un modelo Gemma 3-4B previamente entrenado. El modelo fue entrenado previamente en una combinación diversa de demostraciones de robots, tareas de visión y lenguaje y datos de videos de Internet.

Resultados clave:

Adaptación en contexto: MEM permite a los robots adaptar estrategias de manipulación basadas en fallas recientes. En la evaluación, esto condujo a un aumento del +62 % en la tasa de éxito al abrir refrigeradores con direcciones de bisagra desconocidas y a un aumento del +11 % en la recogida de palillos a alturas variables. Tareas de horizonte a largo plazo: el modelo realizó con éxito tareas de 15 minutos como ‘Configuración de recetas’ (recuperar ingredientes de múltiples ubicaciones) y ‘Limpieza de cocina’ (lavar platos y limpiar encimeras). Los VLA sin memoria fallaron en estas tareas con mucha más frecuencia. Eficiencia: el codificador de vídeo permite que el modelo procese hasta 16 fotogramas de observación (que duran aproximadamente 1 minuto) mientras se mantiene por debajo de los umbrales críticos de inferencia en tiempo real en una única GPU NVIDIA H100.

MEM demuestra que la combinación de tokens visuales densos y de corto plazo con resúmenes de lenguaje comprimidos de largo plazo permite a los VLA escalar su “memoria de trabajo” sin incurrir en costos computacionales prohibitivos.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.