Blog Banner 3.png

El éxito de muchas técnicas de aprendizaje por refuerzo (RL) se basa en funciones de recompensa densas, pero diseñarlas puede resultar difícil debido a los requisitos de experiencia y al ensayo y error. Las recompensas escasas, como las señales binarias de finalización de tareas, son más fáciles de obtener, pero plantean desafíos para los algoritmos de RL, como la exploración. En consecuencia, surge la pregunta: ¿Se pueden aprender funciones de recompensa densas basadas en datos para abordar estos desafíos?

Las investigaciones existentes sobre el aprendizaje mediante recompensas a menudo pasan por alto la importancia de reutilizar las recompensas para nuevas tareas. En el aprendizaje de funciones de recompensa a partir de demostraciones, conocido como RL inverso, métodos como el aprendizaje por imitación adversarial (AIL) han ganado terreno. Inspirándose en las GAN, AIL emplea una red de políticas y un discriminador para generar y distinguir trayectorias, respectivamente. Sin embargo, las recompensas de AIL no se pueden reutilizar entre tareas, lo que limita su capacidad de generalizarse a nuevas tareas.

Investigadores de UC San Diego presentes Aprendizaje de recompensa densa a partir de etapas (DrS), un enfoque único para aprender recompensas reutilizables mediante la incorporación de recompensas escasas como señal de supervisión en lugar de la señal original para clasificar las trayectorias de demostración y agentes. Esto implica entrenar a un discriminador para clasificar las trayectorias de éxito y fracaso basándose en recompensas binarias dispersas. Se asignan recompensas más altas a las transiciones en trayectorias de éxito y recompensas más bajas a las transiciones dentro de trayectorias de fracaso, lo que garantiza la coherencia durante todo el entrenamiento. Una vez que se completa el entrenamiento, las recompensas se vuelven reutilizables. Las demostraciones de expertos pueden incluirse como trayectorias de éxito, pero no son obligatorias, ya que sólo se necesitan recompensas escasas, lo que a menudo es inherente a las definiciones de tareas.

El modelo DrS consta de dos fases: aprendizaje de recompensa y reutilización de recompensa. En la fase de aprendizaje de recompensa, se entrena a un clasificador para diferenciar entre trayectorias exitosas y no exitosas utilizando recompensas escasas. Este clasificador sirve como un generador de recompensas denso. La fase de reutilización de recompensas aplica la recompensa densa aprendida para capacitar a nuevos agentes de RL en tareas de prueba. Los discriminadores de etapas específicas están capacitados para proporcionar recompensas densas por funciones de varias etapas para cada etapa, lo que garantiza una guía efectiva a través de la progresión de la tarea.

El modelo propuesto se evaluó en tres desafiantes tareas de manipulación física: recoger y colocar, girar el grifo y abrir la puerta del gabinete, cada una de las cuales contiene varios objetos. La evaluación se centró en la reutilización de las recompensas aprendidas, utilizando conjuntos de pruebas y entrenamiento que no se superpongan para cada familia de tareas. Durante la fase de aprendizaje de recompensas, los agentes de capacitación aprendieron recompensas para manipular objetos de entrenamiento y luego estas recompensas se reutilizaron para capacitar a los agentes en objetos de prueba en la fase de reutilización de recompensas. El estudio utilizó el algoritmo Soft Actor-Critic (SAC) para la evaluación. Los resultados demostraron que las recompensas aprendidas superaron a las recompensas iniciales en todas las familias de tareas, y en ocasiones rivalizaron con las recompensas diseñadas por humanos. Las recompensas semiescasas mostraron un éxito limitado, mientras que otros métodos de aprendizaje de recompensas no lograron el éxito.

En conclusión, esta investigación presenta DrS, un enfoque basado en datos para aprender funciones de recompensa densas a partir de recompensas escasas evaluadas en tareas de manipulación robótica, lo que muestra la eficacia de DrS en la transferencia entre tareas con diferentes geometrías de objetos. Esta simplificación del proceso de diseño de recompensas es prometedora para ampliar las aplicaciones de RL en diversos escenarios. Sin embargo, surgen dos limitaciones principales con la versión de múltiples etapas del enfoque. En primer lugar, la adquisición de conocimientos sobre la estructura de las tareas sigue sin explorarse, lo que podría abordarse mediante grandes modelos lingüísticos o enfoques teóricos de la información. En segundo lugar, depender de indicadores de etapa puede plantear desafíos a la hora de capacitar directamente a agentes de RL en entornos del mundo real. Sin embargo, los sensores táctiles o los métodos de detección/seguimiento visual pueden obtener información del escenario cuando sea necesario.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.