De las recompensas escasas al dominio preciso: cómo demo3 revolucionan la manipulación robótica

Las tareas de manipulación robótica del horizonte largo son un desafío serio para el aprendizaje de refuerzo, causado principalmente por recompensas escasas, espacios de alta dados de acción dimensionales y el desafío de diseñar funciones útiles de recompensa. El aprendizaje de refuerzo convencional no es adecuado para manejar una exploración eficiente, ya que la falta de retroalimentación dificulta el aprendizaje de políticas óptimas. Este problema es significativo en las tareas de control robótico del razonamiento de múltiples etapas, donde el logro de las subconociones secuenciales es esencial para el éxito general. Las estructuras de recompensa mal diseñadas pueden hacer que los agentes se atasquen en optimas locales o exploten atajos espurios, lo que lleva a procesos de aprendizaje subóptimos. Además, la mayoría de los métodos existentes tienen una alta complejidad de muestra, lo que requiere grandes cantidades de datos de capacitación para generalizar a diversas tareas de manipulación. Dichas restricciones hacen que el aprendizaje de refuerzo de refuerzo sea imposible para las tareas del mundo real, donde la eficiencia de los datos y las señales de aprendizaje bien estructuradas son clave para el éxito.

Investigaciones anteriores que han abordado estos problemas han explorado el aprendizaje de refuerzo basado en modelos, el aprendizaje basado en la demostración y el aprendizaje de refuerzo inverso. Los métodos basados ​​en modelos, incluido TD-MPC2, mejoran la eficiencia de la muestra al explotar los modelos mundiales predictivos, pero requieren grandes cantidades de exploración para optimizar de manera óptima las políticas. Los métodos basados ​​en demostraciones, incluidos los módem y el codificador, mitigan los problemas de exploración al explotar las trayectorias de expertos, pero carecen de una buena escala a tareas de alta dimensión de horario largo debido a la necesidad de grandes conjuntos de datos. Los métodos de aprendizaje de refuerzo inverso intentan aprender funciones de recompensa de las demostraciones, pero carecen de una buena capacidad de generalización y complejidad computacional. Además, la mayoría de los enfoques en este campo no explotan la estructura inherente de las tareas de múltiples etapas y, por lo tanto, no explotan la posibilidad de descomponer los objetivos complejos en subconocentes más manejables.

Para superar estos desafíos, los investigadores han introducido la recompensa, la política y el aprendizaje del modelo mundial (Demo3), un marco de aprendizaje de refuerzo que integra la adquisición de recompensas estructuradas, la optimización de políticas y la toma de decisiones basada en el modelo. El marco introduce tres innovaciones principales: la transformación de indicadores de etapas dispersos a recompensas continuas y estructuradas que proporcionan comentarios más confiables; un programa de capacitación bi-fásico que inicialmente utiliza la clonación de comportamiento seguido de un proceso de aprendizaje de refuerzo interactivo; y la integración del aprendizaje del modelo mundial en línea, que permite la adaptación dinámica de penalización durante la capacitación. A diferencia de los enfoques actuales, este método permite la adquisición de recompensas estructuradas en tiempo real a través de discriminadores específicos de la etapa que evalúan la probabilidad de progreso hacia las subggoas. Como resultado, el marco se centra en el logro de los objetivos de la tarea en lugar de la imitación de demostración, mejorando significativamente la eficiencia de la muestra y la generalización entre las tareas en la manipulación robótica.

Demo3 se construye a partir de la base del enfoque TD-MPC2, que aprende un modelo mundial de espacio latente para aumentar los pasos de planificación y control. La estrategia se basa en numerosos discriminadores específicos de la etapa que cada uno aprende a pronosticar la posibilidad de una transición exitosa a la próxima etapa de tareas. Estos discriminadores están ajustados utilizando el criterio binario de pérdida de entropía cruzada y ayudan con la configuración de la recompensa en línea, generando señales de aprendizaje más ricas en comparación con las recompensas convencionales escasas. La capacitación se adhiere a un proceso sistemático de dos fases. Primero, en la etapa previa a la capacitación, se aprende una política y un codificador utilizando la clonación de comportamiento de un conjunto parcial de manifestaciones expertas. En segundo lugar, el agente involucrado en procesos de aprendizaje de refuerzo continuo aprende a ajustar y refinar la política a través del proceso de interacciones ambientales, mientras que depende de las recompensas densas derivadas. Se introduce un proceso de recocido para mejorar la eficiencia de las operaciones a través de la transferencia de dependencia gradualmente desde la clonación conductual hasta el aprendizaje autónomo. Esta transferencia suave permite la transferencia progresiva del comportamiento desde la imitación inducida por la demostración a la mejora de la política de forma independiente. El enfoque se prueba en dieciséis tareas de manipulación robótica difíciles, que involucran a Meta-World, Robosuite y Maniskill3, y realizan avances sustanciales en la eficiencia del aprendizaje y la robustez en comparación con las alternativas de última generación existentes.

Demo3 supera a los algoritmos de aprendizaje de refuerzo de vanguardia con mucho, obteniendo mejoras significativas en la eficiencia de la muestra, el tiempo de aprendizaje y las tasas generales de éxito de finalización de la tarea. El método registra un promedio del 40% mejorado de la eficiencia de los datos sobre los métodos competitivos, con una mejora de hasta un 70% reportada por desafíos muy difíciles de Horizon Long. El sistema siempre informa tasas de éxito altas con tan solo cinco demostraciones, en comparación con los métodos competitivos que requieren conjuntos de datos mucho más grandes para lograr un éxito comparable. Al ser capaz de procesar las instancias de recompensa dispersas de varias etapas de manera adecuada, el sistema supera las tareas precisas de manipulación robótica como la inserción de PEG y el apilamiento de cubos con tasas de éxito mejoradas dentro de los presupuestos de interacción estrictos. Los costos computacionales también son comparables, promediando alrededor de 5.19 horas por cada 100,000 pasos de interacción, lo que lo hace más eficiente que los modelos de aprendizaje de refuerzo competidores al tiempo que producen resultados superiores en el aprendizaje de habilidades robóticas complejas.

Demo3 es un avance significativo en el aprendizaje de refuerzo adaptado para el control robótico y es efectivo para abordar los desafíos de lidiar con tareas de Horizon Long con recompensas escasas. Al aprovechar el aprendizaje de recompensas densas en línea, la optimización de políticas estructuradas y la toma de decisiones basada en modelos, este marco puede lograr un alto rendimiento y eficiencia. La inclusión de un procedimiento de entrenamiento de dos fases y la adaptación de recompensas dinámicas ayuda a obtener mejoras de eficiencia de datos espectaculares con tasas de éxito son 40-70% más altas en comparación con las metodologías existentes en una variedad de tareas de manipulación. Con la mejora de la configuración de la recompensa, la optimización del aprendizaje de políticas y la reducción de la dependencia de grandes conjuntos de datos de demostración, este método proporciona la base para métodos de aprendizaje robóticos más eficientes y escalables. La investigación futura puede dirigirse a enfoques de muestreo de demostración más avanzados y técnicas adaptativas de forma de recompensas para mejorar aún más la eficiencia de los datos y acelerar el aprendizaje de refuerzo en las tareas robóticas del mundo real.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Conozca a Parlant: un marco de IA conversacional LLM de LLM diseñado para proporcionar a los desarrolladores el control y la precisión que necesitan sobre sus agentes de servicio al cliente de IA, utilizando pautas de comportamiento y supervisión de tiempo de ejecución. 🔧a 🎛️ Se funciona utilizando una CLI fácil de usar 📟 y SDK de clientes nativos en Python y TypeScript 📦.


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.