La programación de robots tradicional es difícil de escalar. Requiere orquestar la percepción multimodal, la dinámica del contacto físico, diversas configuraciones y fallas de ejecución a mano. Los sistemas de código como política permiten que los modelos de lenguaje los compongan en programas de robot ejecutables. Eso hace que el comportamiento del robot sea inspeccionable, editable y depurable.
Pero los agentes de codificación robóticos existentes se ejecutan en entornos de ejecución ingenuos. Sólo reciben retroalimentación burda a nivel de tarea. Una implementación fallida indica que la tarea falló, no por qué. La causa fundamental puede ser la percepción, la planificación del movimiento, el agarre, la dinámica de contacto o la coordinación a largo plazo. Estos sistemas también descartan correcciones una vez finalizada una tarea. De modo que el agente que resuelve su centésima tarea no tiene más experiencia que la primera.
Un equipo de investigadores de NVIDIA, la Universidad de Michigan, UIUC, UC Berkeley y CMU presenta ASPIRE (Programación de habilidades agentes a través de exploración iterativa de robots). Es un sistema de aprendizaje continuo que escribe y perfecciona programas de control de robots. También destila correcciones validadas en una biblioteca de habilidades reutilizable y transferible.
Cómo funciona ASPIRE
ASPIRE ejecuta un ciclo de aprendizaje abierto con tres componentes. Utiliza una arquitectura coordinador-actor. Un coordinador central gestiona la biblioteca de habilidades compartida y envía agentes de codificación de actores a las tareas. Los actores no intercambian historias de chat completas ni trayectorias en bruto. Entre ellos sólo se mueven habilidades destiladas.
Motor de ejecución de robot de circuito cerrado: reemplaza la retroalimentación de implementación aproximada con seguimientos multimodales por primitivo. Para cada llamada de percepción, planificación y control, almacena entradas, salidas y estados de retorno. También almacena fotogramas clave RGB, superposiciones, candidatos de captura, poses de objetos y resultados de planificación de movimiento. El agente inspecciona sólo las llamadas implicadas por un fallo. Luego localiza la falla y valida una reparación mediante una nueva ejecución.
Biblioteca de habilidades: el conocimiento reutilizable rara vez constituye un programa de tareas completo. Entonces la biblioteca almacena correcciones heterogéneas. Estos incluyen heurísticas de localización, indicaciones de percepción, restricciones de comprensión, primitivas de movimiento y flujos de trabajo de depuración. Cada habilidad es una guía compacta en contexto. Contiene una firma de falla, una condición de cuándo aplicar, una estrategia de reparación y, a menudo, un boceto de código. El coordinador solo admite patrones que pasan la validación de depuración y las comprobaciones de políticas API.
Búsqueda evolutiva: la depuración guiada por seguimiento por sí sola puede colapsar en bucles de reparación locales. El agente sigue parcheando la misma estrategia fallida. Para ampliar la exploración, ASPIRE propone K programas candidatos en cada ronda. Los candidatos se condicionan a los programas anteriores de alto rendimiento y a los rastros de fracaso restantes. La siguiente ronda explora distintas estrategias en lugar de perfeccionar una solución.
En simulación, el agente de codificación es Claude Code con Claude Opus 4.6 y una ventana contextual de 1 millón de tokens. Los programas están escritos en CaP-X, un marco de código como política de fuente abierta creado en MuJoCo Playground. El agente no puede leer la verdad sobre el terreno del simulador. Está prohibido leer el estado del motor de física o archivos de activos como .bddl, .xml o .urdf. La regla es sencilla. Si un robot real con cámara pudiera hacerlo, está permitido.