Del control motor a la inteligencia encarnada

Investigación

Publicado
Autores

Siqi Liu, Leonard Hasenclever, Steven Bohez, Guy Lever, Zhe Wang, SM Ali Eslami, Nicolas Heess

Usar movimientos humanos y animales para enseñar a los robots a driblar una pelota y personajes humanoides simulados para cargar cajas y jugar al fútbol.

Personaje humanoide que aprende a atravesar una carrera de obstáculos mediante prueba y error, lo que puede conducir a soluciones idiosincrásicas. Heess, et al. “Aparición de conductas de locomoción en entornos ricos” (2017).

Hace cinco años, asumimos el desafío de enseñarle a un personaje humanoide completamente articulado a atravesar carreras de obstáculos. Esto demostró lo que el aprendizaje por refuerzo (RL) puede lograr mediante prueba y error, pero también destacó dos desafíos para resolver encarnado inteligencia:

  1. Reutilizar conductas aprendidas previamente: Se necesitaba una cantidad significativa de datos para que el agente “despegara”. Sin ningún conocimiento inicial de qué fuerza aplicar a cada una de sus articulaciones, el agente comenzó con espasmos aleatorios del cuerpo y rápidamente cayó al suelo. Este problema podría aliviarse reutilizando comportamientos aprendidos previamente.
  2. Comportamientos idiosincrásicos: Cuando el agente finalmente aprendió a sortear pistas de obstáculos, lo hizo con métodos antinaturales.aunque divertido) patrones de movimiento que no serían prácticos para aplicaciones como la robótica.

Aquí, describimos una solución a ambos desafíos llamados primitivos motores probabilísticos neuronales (NPMP), que implican un aprendizaje guiado con patrones de movimiento derivados de humanos y animales, y discutimos cómo se utiliza este enfoque en nuestra Papel de fútbol humanoide, publicado hoy en Science Robotics.

También analizamos cómo este mismo enfoque permite la manipulación humanoide de todo el cuerpo desde la visión, como un humanoide que lleva un objeto, y el control robótico en el mundo real, como un robot que dribla una pelota.

Destilación de datos en primitivas de motor controlables usando NPMP

Un NPMP es un módulo de control de motores de propósito general que traduce las intenciones del motor de corto horizonte en señales de control de bajo nivel, y es entrenado fuera de línea o vía RL imitando datos de captura de movimiento (MoCap), grabados con rastreadores en humanos o animales que realizan movimientos de interés.

Un agente aprendiendo a imitar una trayectoria MoCap (mostrada en gris).

El modelo tiene dos partes:

  1. Un codificador que toma una trayectoria futura y la comprime en una intención motora.
  2. Un controlador de bajo nivel que produce la siguiente acción dado el estado actual del agente y esta intención motora.

Nuestro modelo NPMP primero destila datos de referencia en un controlador de bajo nivel (izquierda). Este controlador de bajo nivel se puede utilizar como módulo de control de motor plug-and-play en una nueva tarea (derecha).

Después del entrenamiento, el controlador de bajo nivel se puede reutilizar para aprender nuevas tareas, donde un controlador de alto nivel se optimiza para generar intenciones motoras directamente. Esto permite una exploración eficiente (ya que se producen comportamientos coherentes, incluso con intenciones motoras muestreadas al azar) y limita la solución final.

Coordinación de equipos emergente en el fútbol humanoide

El fútbol ha sido un desafío de larga data para la investigación de inteligencia incorporada, que requiere habilidades individuales y juego coordinado en equipo. En nuestro último trabajo, utilizamos un NPMP como previo para guiar el aprendizaje de habilidades de movimiento.

El resultado fue un equipo de jugadores que progresó desde aprender habilidades para perseguir la pelota hasta finalmente aprender a coordinar. Anteriormente, en un estudio con realizaciones simples, habíamos demostrado que puede surgir un comportamiento coordinado en equipos que compiten entre sí. El NPMP nos permitió observar un efecto similar pero en un escenario que requería un control motor significativamente más avanzado.

Los agentes primero imitan el movimiento de los jugadores de fútbol para aprender un módulo NPMP (arriba). Utilizando el NPMP, los agentes aprenden habilidades específicas del fútbol (abajo).

Nuestros agentes adquirieron habilidades que incluyen locomoción ágil, pases y división del trabajo, como lo demuestran una variedad de estadísticas, incluidas métricas utilizadas en análisis de deportes del mundo real. Los jugadores exhiben un ágil control motor de alta frecuencia y una toma de decisiones a largo plazo que implica la anticipación de los comportamientos de los compañeros de equipo, lo que lleva a un juego coordinado en equipo.

Un agente que aprende a jugar fútbol de forma competitiva utilizando RL multiagente.

Manipulación de todo el cuerpo y tareas cognitivas utilizando la visión.

Aprender a interactuar con objetos usando los brazos es otro desafío de control difícil. El NPMP también puede permitir este tipo de manipulación de todo el cuerpo. Con una pequeña cantidad de datos MoCap de interacción con cajas, podemos entrenar a un agente para llevar una caja de un lugar a otro, utilizando una visión egocéntrica y con sólo una escasa señal de recompensa:

Con una pequeña cantidad de datos MoCap (arriba), nuestro enfoque NPMP puede resolver una tarea de transporte de cajas (abajo).

De manera similar, podemos enseñarle al agente a atrapar y lanzar pelotas:

Humanoide simulado atrapando y lanzando una pelota.

Humanoide simulado recogiendo esferas azules en un laberinto.

Control seguro y eficiente de robots del mundo real

El NPMP también puede ayudar a controlar robots reales. Tener un comportamiento bien regularizado es fundamental para actividades como caminar sobre terreno accidentado o manipular objetos frágiles. Los movimientos nerviosos pueden dañar el propio robot o su entorno, o al menos agotar su batería. Por lo tanto, a menudo se invierte un esfuerzo significativo en diseñar objetivos de aprendizaje que hagan que un robot haga lo que queremos y al mismo tiempo se comporte de manera segura y eficiente.

Como alternativa, investigamos si el uso antecedentes derivados del movimiento biológico puede brindarnos habilidades de movimiento bien regularizadas, de apariencia natural y reutilizables para robots con patas, como caminar, correr y girar, que son adecuadas para implementar en robots del mundo real.

A partir de datos MoCap de humanos y perros, adaptamos el enfoque NPMP para entrenar habilidades y controladores en simulación que luego pueden implementarse en robots humanoides reales (OP3) y cuadrúpedos (ANYmal B), respectivamente. Esto permitió que un usuario dirigiera los robots mediante un joystick o driblara una pelota hasta una ubicación objetivo de una manera robusta y de aspecto natural.

Las habilidades de locomoción del robot ANYmal se aprenden imitando al perro MoCap.

Las habilidades de locomoción se pueden reutilizar para caminar y regatear el balón de forma controlable.

Beneficios del uso de primitivas motoras probabilísticas neuronales

En resumen, hemos utilizado el modelo de habilidades NPMP para aprender tareas complejas con personajes humanoides en simulación y robots del mundo real. El NPMP agrupa habilidades de movimiento de bajo nivel de forma reutilizable, lo que facilita el aprendizaje de comportamientos útiles que serían difíciles de descubrir mediante prueba y error no estructurados. Al utilizar la captura de movimiento como fuente de información previa, sesga el aprendizaje del control motor hacia el de los movimientos naturalistas.

El NPMP permite a los agentes incorporados aprender más rápidamente utilizando RL; aprender comportamientos más naturalistas; aprender comportamientos más seguros, eficientes y estables adecuados para la robótica del mundo real; y combinar el control motor de todo el cuerpo con habilidades cognitivas de horizonte más amplio, como el trabajo en equipo y la coordinación.

Aprende más sobre nuestro trabajo: