Screenshot 2024 07 07 At 10.47.11 Am.png

El aprendizaje por refuerzo (RL) se destaca en la resolución de tareas individuales, pero tiene dificultades para realizar múltiples tareas, especialmente en diferentes formas robóticas. Los modelos del mundo, que simulan entornos, ofrecen soluciones escalables, pero a menudo dependen de métodos de optimización ineficientes y de alta varianza. Si bien los modelos grandes entrenados en grandes conjuntos de datos tienen una capacidad de generalización avanzada en robótica, por lo general necesitan datos casi expertos y no se adaptan a diversas morfologías. El RL puede aprender de datos subóptimos, lo que lo hace prometedor para entornos de múltiples tareas. Sin embargo, los métodos como la planificación de orden cero en los modelos del mundo enfrentan problemas de escalabilidad y se vuelven menos efectivos a medida que aumenta el tamaño del modelo, particularmente en modelos masivos como GAIA-1 y UniSim.

Investigadores de Georgia Tech y UC San Diego han presentado el aprendizaje de políticas con grandes modelos mundiales (PWM), un innovador algoritmo de aprendizaje por refuerzo basado en modelos (MBRL). PWM entrena previamente los modelos mundiales con datos fuera de línea y los utiliza para el aprendizaje de políticas de gradiente de primer orden, lo que le permite resolver tareas con hasta 152 dimensiones de acción. Este enfoque supera a los métodos existentes al lograr recompensas hasta un 27 % más altas sin una costosa planificación en línea. PWM enfatiza la utilidad de gradientes suaves y estables en horizontes largos en lugar de la mera precisión. Demuestra que la optimización eficiente de primer orden conduce a mejores políticas y un entrenamiento más rápido que los métodos tradicionales de orden cero.

El aprendizaje automático se divide en enfoques basados ​​en modelos y enfoques sin modelos. Los métodos sin modelos como PPO y SAC dominan las aplicaciones del mundo real y emplean arquitecturas actor-crítico. SAC utiliza gradientes de primer orden (FoG) para el aprendizaje de políticas, que ofrecen una baja varianza pero enfrentan problemas con las discontinuidades objetivas. Por el contrario, PPO se basa en gradientes de orden cero, que son robustos a las discontinuidades pero propensos a una alta varianza y una optimización más lenta. Recientemente, el enfoque en robótica se ha desplazado hacia grandes modelos multitarea entrenados mediante clonación de comportamiento. Los ejemplos incluyen RT-1 y RT-2 para la manipulación de objetos. Sin embargo, aún es necesario explorar el potencial de los modelos grandes en el aprendizaje automático. Los métodos MBRL como DreamerV3 y TD-MPC2 aprovechan modelos de mundo grande, pero su escalabilidad podría mejorarse, particularmente con el tamaño creciente de modelos como GAIA-1 y UniSim.

El estudio se centra en escenarios de RL de tiempo discreto y horizonte infinito representados por un proceso de decisión de Markov (MDP) que involucra estados, acciones, dinámicas y recompensas. El RL tiene como objetivo maximizar las recompensas descontadas acumuladas a través de una política. Comúnmente, esto se aborda utilizando arquitecturas actor-crítico, que aproximan los valores de estado y optimizan las políticas. En MBRL, se utilizan componentes adicionales como dinámicas aprendidas y modelos de recompensa, a menudo llamados modelos mundiales. Estos modelos pueden codificar estados verdaderos en representaciones latentes. Aprovechando estos modelos mundiales, PWM optimiza de manera eficiente las políticas utilizando FoG, reduciendo la varianza y mejorando la eficiencia de la muestra incluso en entornos complejos.

Al evaluar el método propuesto, se abordaron tareas de control complejas utilizando el simulador flex, centrándose en entornos como Hopper, Ant, Anymal, Humanoid y Humanoid activado por músculos. Se realizaron comparaciones con SHAC, que utiliza modelos de verdad fundamental, y TD-MPC2, un método sin modelo que planifica activamente en el momento de la inferencia. Los resultados mostraron que PWM logró mayores recompensas y paisajes de optimización más suaves que SHAC y TD-MPC2. Pruebas posteriores en entornos multitarea de 30 y 80 revelaron el rendimiento de recompensa superior de PWM y un tiempo de inferencia más rápido que TD-MPC2. Los estudios de ablación destacaron la robustez de PWM a los modelos de contacto rígido y una mayor eficiencia de muestra, especialmente con modelos mundiales mejor entrenados.

El estudio introdujo PWM como un enfoque en MBRL. PWM utiliza grandes modelos del mundo multitarea como simuladores de física diferenciables, aprovechando gradientes de primer orden para un entrenamiento de políticas eficiente. Las evaluaciones destacaron la capacidad de PWM para superar los métodos existentes, incluidos aquellos con acceso a modelos de simulación de verdad de campo como TD-MPC2. A pesar de sus puntos fuertes, PWM depende en gran medida de datos preexistentes extensos para el entrenamiento de modelos del mundo, lo que limita su aplicabilidad en escenarios con pocos datos. Además, si bien PWM ofrece un entrenamiento de políticas eficiente, requiere un nuevo entrenamiento para cada nueva tarea, lo que plantea desafíos para una rápida adaptación. Las investigaciones futuras podrían explorar mejoras en el entrenamiento de modelos del mundo y extender PWM a entornos basados ​​en imágenes y aplicaciones del mundo real.


Revisar la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.