Un método más sencillo para aprender a controlar un robot |  Noticias del MIT

Investigadores del MIT y la Universidad de Stanford han ideado un nuevo enfoque de aprendizaje automático que podría usarse para controlar un robot, como un dron o un vehículo autónomo, de manera más efectiva y eficiente en entornos dinámicos donde las condiciones pueden cambiar rápidamente.

Esta técnica podría ayudar a un vehículo autónomo a aprender a compensar las condiciones resbaladizas de la carretera para evitar patinar, permitir a un robot de vuelo libre remolcar diferentes objetos en el espacio o permitir que un dron siga de cerca a un esquiador alpino a pesar de ser sacudido por fuertes vientos. .

El enfoque de los investigadores incorpora cierta estructura de la teoría del control en el proceso de aprendizaje de un modelo de tal manera que conduce a un método eficaz para controlar dinámicas complejas, como las causadas por los impactos del viento en la trayectoria de un vehículo volador. Una forma de pensar en esta estructura es como una pista que puede ayudar a guiar cómo controlar un sistema.

“El objetivo de nuestro trabajo es aprender la estructura intrínseca de la dinámica del sistema que pueda aprovecharse para diseñar controladores estabilizadores más eficaces”, dice Navid Azizan, profesor asistente Esther y Harold E. Edgerton en el Departamento de Ingeniería Mecánica del MIT y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS). “Al aprender conjuntamente la dinámica del sistema y estas estructuras únicas orientadas al control a partir de datos, podemos crear de forma natural controladores que funcionan de manera mucho más efectiva en el mundo real”.

Al utilizar esta estructura en un modelo aprendido, la técnica de los investigadores extrae inmediatamente un controlador efectivo del modelo, a diferencia de otros métodos de aprendizaje automático que requieren que un controlador se derive o aprenda por separado con pasos adicionales. Con esta estructura, su enfoque también permite aprender un controlador eficaz utilizando menos datos que otros enfoques. Esto podría ayudar a que su sistema de control basado en el aprendizaje logre un mejor rendimiento más rápido en entornos que cambian rápidamente.

“Este trabajo intenta lograr un equilibrio entre identificar la estructura de su sistema y simplemente aprender un modelo a partir de datos”, dice el autor principal. Spencer Richards, estudiante de posgrado de la Universidad de Stanford. “Nuestro enfoque se inspira en cómo los robóticos utilizan la física para derivar modelos más simples para robots. El análisis físico de estos modelos a menudo produce una estructura útil para fines de control, una que podría perderse si simplemente intentara ajustar ingenuamente un modelo a los datos. En cambio, intentamos identificar una estructura igualmente útil a partir de datos que indiquen cómo implementar su lógica de control”.

Autores adicionales del papel son Jean-Jacques Slotine, profesor de ingeniería mecánica y de ciencias cerebrales y cognitivas en el MIT, y Marco Pavone, profesor asociado de aeronáutica y astronáutica en Stanford. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático (ICML).

Aprendiendo un controlador

Determinar la mejor manera de controlar un robot para realizar una tarea determinada puede ser un problema difícil, incluso cuando los investigadores saben cómo modelar todo lo relacionado con el sistema.

Un controlador es la lógica que permite a un dron seguir una trayectoria deseada, por ejemplo. Este controlador le diría al dron cómo ajustar las fuerzas de su rotor para compensar el efecto de los vientos que pueden desviarlo de un camino estable para alcanzar su objetivo.

Este dron es un sistema dinámico, un sistema físico que evoluciona con el tiempo. En este caso, su posición y velocidad cambian a medida que vuela por el entorno. Si dicho sistema es lo suficientemente simple, los ingenieros pueden crear un controlador a mano.

Modelar un sistema a mano captura intrínsecamente una determinada estructura basada en la física del sistema. Por ejemplo, si un robot se modelara manualmente utilizando ecuaciones diferenciales, estas capturarían la relación entre velocidad, aceleración y fuerza. La aceleración es la tasa de cambio de velocidad a lo largo del tiempo, que está determinada por la masa y las fuerzas aplicadas al robot.

Pero a menudo el sistema es demasiado complejo para modelarlo manualmente con precisión. Los efectos aerodinámicos, como la forma en que el viento arremolinado empuja un vehículo volador, son notoriamente difíciles de derivar manualmente, explica Richards. En cambio, los investigadores tomarían medidas de la posición, la velocidad y las velocidades del rotor del dron a lo largo del tiempo, y utilizarían el aprendizaje automático para adaptar un modelo de este sistema dinámico a los datos. Pero estos enfoques normalmente no aprenden una estructura basada en el control. Esta estructura es útil para determinar cómo configurar mejor las velocidades del rotor para dirigir el movimiento del dron a lo largo del tiempo.

Una vez que han modelado el sistema dinámico, muchos enfoques existentes también utilizan datos para aprender un controlador independiente para el sistema.

“Otros enfoques que intentan aprender la dinámica y un controlador a partir de datos como entidades separadas están un poco alejados filosóficamente de la forma en que normalmente lo hacemos para sistemas más simples. Nuestro enfoque recuerda más a derivar modelos manualmente a partir de la física y vincularlos al control”, dice Richards.

Estructura identificativa

El equipo del MIT y Stanford desarrolló una técnica que utiliza el aprendizaje automático para aprender el modelo dinámico, pero de tal manera que el modelo tenga alguna estructura prescrita que sea útil para controlar el sistema.

Con esta estructura, pueden extraer un controlador directamente del modelo dinámico, en lugar de utilizar datos para aprender un modelo completamente separado para el controlador.

“Descubrimos que más allá de aprender la dinámica, también es esencial aprender la estructura orientada al control que respalda el diseño eficaz del controlador. Nuestro enfoque de aprender factorizaciones de coeficientes de la dinámica dependientes del estado ha superado las líneas de base en términos de eficiencia de datos y capacidad de seguimiento, demostrando ser exitoso en el control eficiente y efectivo de la trayectoria del sistema”, dice Azizan.

Cuando probaron este enfoque, su controlador siguió de cerca las trayectorias deseadas, superando a todos los métodos básicos. El controlador extraído de su modelo aprendido casi igualó el rendimiento de un controlador real, que se construye utilizando la dinámica exacta del sistema.

“Al hacer suposiciones más simples, obtuvimos algo que realmente funcionó mejor que otros enfoques básicos complicados”, añade Richards.

Los investigadores también descubrieron que su método era eficiente en cuanto a datos, lo que significa que lograba un alto rendimiento incluso con pocos datos. Por ejemplo, podría modelar eficazmente un vehículo impulsado por rotores altamente dinámico utilizando sólo 100 puntos de datos. Los métodos que utilizaron múltiples componentes aprendidos vieron su rendimiento caer mucho más rápido con conjuntos de datos más pequeños.

Esta eficiencia podría hacer que su técnica sea especialmente útil en situaciones en las que un dron o robot necesita aprender rápidamente en condiciones que cambian rápidamente.

Además, su enfoque es general y podría aplicarse a muchos tipos de sistemas dinámicos, desde brazos robóticos hasta naves espaciales de vuelo libre que operan en entornos de baja gravedad.

En el futuro, los investigadores están interesados ​​en desarrollar modelos que sean más interpretables físicamente y que puedan identificar información muy específica sobre un sistema dinámico, dice Richards. Esto podría conducir a controladores con mejor rendimiento.

“A pesar de su ubicuidad e importancia, el control de retroalimentación no lineal sigue siendo un arte, lo que lo hace especialmente adecuado para métodos basados ​​en datos y aprendizaje. Este artículo hace una contribución significativa en esta área al proponer un método que aprende conjuntamente la dinámica del sistema, un controlador y una estructura orientada al control”, dice Nikolai Matni, profesor asistente en el Departamento de Ingeniería Eléctrica y de Sistemas de la Universidad de Pensilvania. que no participó en este trabajo. “Lo que encontré particularmente emocionante y convincente fue la integración de estos componentes en un algoritmo de aprendizaje conjunto, de modo que la estructura orientada al control actúe como un sesgo inductivo en el proceso de aprendizaje. El resultado es un proceso de aprendizaje eficiente en datos que genera modelos dinámicos que disfrutan de una estructura intrínseca que permite un control eficaz, estable y sólido. Si bien las contribuciones técnicas del artículo son excelentes en sí mismas, es esta contribución conceptual la que considero más interesante y significativa”.

Esta investigación cuenta con el apoyo, en parte, de la Iniciativa de Liderazgo Universitario de la NASA y el Consejo de Investigación de Ingeniería y Ciencias Naturales de Canadá.