Conozca Text2Reward: un marco sin datos que automatiza la generación de funciones de recompensa densas basadas en modelos de lenguaje grandes

La configuración de recompensas, que busca desarrollar funciones de recompensa que dirijan de manera más efectiva a un agente hacia comportamientos deseables, sigue siendo una dificultad de larga data en el aprendizaje por refuerzo (RL). Es un procedimiento que requiere mucho tiempo y habilidad, puede no ser óptimo y con frecuencia se realiza manualmente mediante la creación de incentivos basados ​​en intuición y heurísticas expertas. La configuración de la recompensa se puede abordar mediante el aprendizaje por refuerzo inverso (IRL) y el aprendizaje de preferencias. Se puede enseñar un modelo de recompensa utilizando comentarios basados ​​en preferencias o ejemplos humanos. Ambos enfoques todavía necesitan mucho trabajo o recopilación de datos, y los modelos de recompensa basados ​​en redes neuronales deben ser más comprensibles e incapaces de generalizarse fuera de los dominios de los datos de entrenamiento.

Figura 1 ilustra los tres pasos de TEXT2REWARD. Expert Abstraction proporciona una jerarquía de clases Pythonic que representan el entorno. El objetivo se establece en las instrucciones para el usuario utilizando un lenguaje cotidiano. Los usuarios pueden resumir el modo de falla o sus preferencias en los comentarios de los usuarios, que se utilizan para mejorar el código de recompensa.

Investigadores de la Universidad de Hong Kong, la Universidad de Nanjing, la Universidad Carnegie Mellon, Microsoft Research y la Universidad de Waterloo presentan el marco TEXT2REWARD para crear código de recompensa enriquecido basado en descripciones de objetivos. TEXT2REWARD crea un código de recompensa denso (Figura 1 en el centro) basado en modelos de lenguaje grandes (LLM), que se basan en una descripción pitónica condensada del entorno (Figura 1 a la izquierda), dado un objetivo de RL (por ejemplo, “empujar la silla hacia la posición marcada”). Luego, un algoritmo RL como PPO o SAC utiliza una codificación de recompensa densa para entrenar una política (Figura 1 a la derecha). A diferencia de la RL inversa, TEXT2REWARD produce recompensas simbólicas con buena interpretabilidad sin datos. El denso código de recompensa de forma libre de los autores, a diferencia del trabajo reciente que utilizó LLM para escribir código de recompensa escaso (la recompensa es distinta de cero solo cuando termina el episodio) con API diseñadas a mano, cubre una gama más amplia de tareas y puede haga uso de marcos de codificación probados (como operaciones NumPy sobre nubes de puntos y posiciones de agentes).

Finalmente, dada la sensibilidad de la capacitación en RL y la ambigüedad del lenguaje, la estrategia de RL puede no lograr el objetivo o lograrlo de maneras no previstas. Al aplicar la política aprendida en el mundo real, obtener comentarios de los usuarios y ajustar la recompensa según sea necesario, TEXT2REWARD resuelve este problema. Llevaron a cabo estudios sistemáticos sobre dos puntos de referencia de manipulación robótica, MANISKILL2, METAWORLD y dos entornos de locomoción de MUJOCO. Las políticas entrenadas con su código de recompensa producido logran tasas de éxito y velocidades de convergencia equivalentes o mayores que el código de recompensa real meticulosamente calibrado por especialistas humanos en 13 de 17 tareas de manipulación.

Con una tasa de éxito superior al 94 %, TEXT2REWARD aprende 6 comportamientos locomotores únicos. Además, muestran cómo se puede aplicar la estrategia entrenada en el simulador a un robot Franka Panda genuino. Su enfoque puede aumentar de forma iterativa la tasa de éxito de la política aprendida de 0 a más del 100% y eliminar la ambigüedad de la tarea con aportación humana en menos de tres rondas. En conclusión, los hallazgos experimentales mostraron que TEXT2REWARD podría proporcionar un código de recompensa denso, interpretable y generalizable, lo que permitiría una canalización humana en el circuito y una amplia cobertura de tareas de RL. Anticipan que los resultados estimularán más investigaciones sobre la interfaz entre el aprendizaje por refuerzo y la creación de código.


Revisar la Papel, Códigoy Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.