La configuración de recompensas, que busca desarrollar funciones de recompensa que dirijan de manera más efectiva a un agente hacia comportamientos deseables, sigue siendo una dificultad de larga data en el aprendizaje por refuerzo (RL). Es un procedimiento que requiere mucho tiempo y habilidad, puede no ser óptimo y con frecuencia se realiza manualmente mediante la creación de incentivos basados en intuición y heurísticas expertas. La configuración de la recompensa se puede abordar mediante el aprendizaje por refuerzo inverso (IRL) y el aprendizaje de preferencias. Se puede enseñar un modelo de recompensa utilizando comentarios basados en preferencias o ejemplos humanos. Ambos enfoques todavía necesitan mucho trabajo o recopilación de datos, y los modelos de recompensa basados en redes neuronales deben ser más comprensibles e incapaces de generalizarse fuera de los dominios de los datos de entrenamiento.
Investigadores de la Universidad de Hong Kong, la Universidad de Nanjing, la Universidad Carnegie Mellon, Microsoft Research y la Universidad de Waterloo presentan el marco TEXT2REWARD para crear código de recompensa enriquecido basado en descripciones de objetivos. TEXT2REWARD crea un código de recompensa denso (Figura 1 en el centro) basado en modelos de lenguaje grandes (LLM), que se basan en una descripción pitónica condensada del entorno (Figura 1 a la izquierda), dado un objetivo de RL (por ejemplo, “empujar la silla hacia la posición marcada”). Luego, un algoritmo RL como PPO o SAC utiliza una codificación de recompensa densa para entrenar una política (Figura 1 a la derecha). A diferencia de la RL inversa, TEXT2REWARD produce recompensas simbólicas con buena interpretabilidad sin datos. El denso código de recompensa de forma libre de los autores, a diferencia del trabajo reciente que utilizó LLM para escribir código de recompensa escaso (la recompensa es distinta de cero solo cuando termina el episodio) con API diseñadas a mano, cubre una gama más amplia de tareas y puede haga uso de marcos de codificación probados (como operaciones NumPy sobre nubes de puntos y posiciones de agentes).
Finalmente, dada la sensibilidad de la capacitación en RL y la ambigüedad del lenguaje, la estrategia de RL puede no lograr el objetivo o lograrlo de maneras no previstas. Al aplicar la política aprendida en el mundo real, obtener comentarios de los usuarios y ajustar la recompensa según sea necesario, TEXT2REWARD resuelve este problema. Llevaron a cabo estudios sistemáticos sobre dos puntos de referencia de manipulación robótica, MANISKILL2, METAWORLD y dos entornos de locomoción de MUJOCO. Las políticas entrenadas con su código de recompensa producido logran tasas de éxito y velocidades de convergencia equivalentes o mayores que el código de recompensa real meticulosamente calibrado por especialistas humanos en 13 de 17 tareas de manipulación.
Con una tasa de éxito superior al 94 %, TEXT2REWARD aprende 6 comportamientos locomotores únicos. Además, muestran cómo se puede aplicar la estrategia entrenada en el simulador a un robot Franka Panda genuino. Su enfoque puede aumentar de forma iterativa la tasa de éxito de la política aprendida de 0 a más del 100% y eliminar la ambigüedad de la tarea con aportación humana en menos de tres rondas. En conclusión, los hallazgos experimentales mostraron que TEXT2REWARD podría proporcionar un código de recompensa denso, interpretable y generalizable, lo que permitiría una canalización humana en el circuito y una amplia cobertura de tareas de RL. Anticipan que los resultados estimularán más investigaciones sobre la interfaz entre el aprendizaje por refuerzo y la creación de código.
Revisar la Papel, Códigoy Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.