Screenshot 2024 05 05 At 9.54.24 Pm.png

El campo de la investigación en robótica se ha transformado significativamente mediante la integración de grandes modelos de lenguaje (LLM). Estos avances han presentado una oportunidad para guiar los sistemas robóticos en la resolución de tareas complejas que implican una planificación compleja y una manipulación a largo plazo. Si bien los robots tradicionalmente se han basado en habilidades predefinidas e ingeniería especializada, los desarrollos recientes muestran potencial en el uso de LLM para ayudar a guiar las políticas de aprendizaje por refuerzo (RL), cerrando la brecha entre la planificación abstracta de alto nivel y el control robótico detallado. El desafío sigue siendo traducir las sofisticadas capacidades de procesamiento del lenguaje de estos modelos en estrategias de control viables, especialmente en entornos dinámicos que involucran interacciones complejas.

Las tareas de manipulación robótica a menudo requieren la ejecución de una serie de comportamientos finamente ajustados, y los sistemas robóticos actuales luchan con la planificación a largo plazo necesaria para estas tareas debido a las limitaciones en el control y la interacción de bajo nivel, particularmente en entornos dinámicos o ricos en contacto. Las herramientas existentes, como la RL de extremo a extremo o los métodos jerárquicos, intentan abordar la brecha entre los LLM y el control robótico, pero a menudo adolecen de una adaptabilidad limitada o desafíos importantes en el manejo de tareas ricas en contactos. El problema principal gira en torno a la traducción eficiente de modelos de lenguaje abstracto en control robótico práctico, tradicionalmente limitado por la incapacidad de los LLM para generar control de bajo nivel.

El Planificar-Seq-Aprender (PSL) El marco de investigadores de la Universidad Carnegie Mellon y Mistral AI se presenta como una solución modular para abordar esta brecha, integrando la planificación basada en LLM para guiar las políticas de RL en la resolución de tareas robóticas de largo plazo. PSL descompone las tareas en tres etapas: planificación del lenguaje de alto nivel (Plan), planificación de movimiento (Seq) y aprendizaje basado en RL (Learn). Esto permite que PSL maneje tanto movimientos sin contacto como estrategias de interacción complejas. El sistema PSL aprovecha los modelos de visión disponibles en el mercado para identificar las regiones de interés objetivo basándose en la entrada de lenguaje de alto nivel, proporcionando un plan estructurado para secuenciar las acciones del robot a través de la planificación del movimiento.

PSL utiliza un LLM para generar un plan de alto nivel que secuencia las acciones del robot a través de la planificación del movimiento. Los modelos de visión ayudan a predecir regiones de interés, lo que permite que el módulo de secuenciación identifique los estados objetivo que debe alcanzar el robot. El componente de planificación de movimiento lleva al robot a estos estados y la política RL se hace cargo de realizar las interacciones requeridas. Este enfoque modular permite que las políticas de RL refinen y adapten estrategias de control basadas en retroalimentación en tiempo real, lo que permite que un sistema robótico navegue por tareas complejas. El equipo de investigación demostró el PSL en 25 tareas robóticas complejas, incluidas tareas de manipulación con mucho contacto y tareas de control a largo plazo que implican hasta 10 etapas. Esto implicó tareas con hasta 10 etapas secuenciales que requerían hasta 10 subtareas robóticas separadas.

PSL logró una tasa de éxito superior al 85 %, superando significativamente a los métodos existentes como SayCan y MoPA-RL. Esto fue particularmente evidente en tareas ricas en contactos, donde el enfoque modular de PSL permitió a los robots adaptarse a condiciones inesperadas en tiempo real, resolviendo eficientemente las complejas interacciones requeridas. La flexibilidad del marco PSL permite una combinación modular de planificación, movimiento y aprendizaje, lo que le permite manejar diferentes tipos de tareas de una amplia gama de puntos de referencia de robótica. Al compartir políticas de RL en todas las etapas de una tarea, PSL logró una eficiencia notable en la velocidad del entrenamiento y el desempeño de la tarea, superando a métodos como E2E y RAPS.

En conclusión, el equipo de investigación demostró la eficacia del PSL para aprovechar los LLM para la planificación de alto nivel, secuenciar movimientos utilizando modelos de visión y refinar las estrategias de control a través de RL. PSL logra un delicado equilibrio entre eficiencia y precisión al traducir objetivos del lenguaje abstracto en control robótico práctico. La planificación modular y el aprendizaje en tiempo real hacen de PSL un marco prometedor para futuras aplicaciones de robótica, permitiendo a los robots navegar por tareas complejas que implican planes de varios pasos.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 41k+ ML


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.