Los desafíos en el desarrollo de agentes que siguen instrucciones en entornos terrestres incluyen la eficiencia y la generalización de las muestras. Estos agentes deben aprender eficazmente de algunas demostraciones mientras se desempeñan con éxito en nuevos entornos con instrucciones novedosas después del entrenamiento. Técnicas como el aprendizaje por refuerzo y el aprendizaje por imitación se utilizan habitualmente, pero a menudo exigen numerosas pruebas o costosas demostraciones de expertos debido a su dependencia del ensayo y error o de la orientación de expertos.
En el seguimiento de la instrucción basada en el lenguaje, los agentes reciben instrucciones y observaciones parciales del entorno y toman las medidas correspondientes. El aprendizaje por refuerzo implica recibir recompensas, mientras que el aprendizaje por imitación imita acciones de expertos. La clonación conductual recopila datos de expertos fuera de línea para entrenar la política, a diferencia del aprendizaje por imitación en línea, y ayuda en tareas de largo plazo en entornos terrestres. Estudios recientes demuestran que los modelos de lenguaje grandes (LLM), cuando se entrenan previamente, muestran un aprendizaje eficiente en muestras mediante indicaciones y aprendizaje en contexto en tareas textuales y fundamentadas, incluido el control robótico. No obstante, los métodos existentes para la instrucción siguiendo escenarios fundamentados dependen de los LLM en línea durante la inferencia, lo que plantea impracticabilidad y altos costos.
Investigadores de Microsoft Research y la Universidad de Waterloo han propuesto modelos de retroalimentación lingüística (LFM) para mejorar las políticas en la instrucción. LFMAprovechamos los LLM para proporcionar retroalimentación sobre el comportamiento de los agentes en entornos sólidos, lo que ayuda a identificar acciones deseables. Al sintetizar esta retroalimentación en un formato compacto LFMla técnica permite una mejora de políticas rentable y eficiente en muestras sin una dependencia continua de los LLM. LFMGeneralizar a nuevos entornos y ofrecer retroalimentación interpretable para la validación humana de los datos de imitación.
El método propuesto introduce LFMs para mejorar el aprendizaje de políticas en la siguiente instrucción. LFMs aprovechar los LLM para identificar comportamientos productivos a partir de una política base, facilitando el aprendizaje de imitación por lotes para la mejora de políticas. Al sintetizar el conocimiento mundial de los LLM en un formato compacto LFMs, el enfoque logra una mejora de políticas generalizable y eficiente en el muestreo sin necesidad de interacciones continuas en línea con costosos LLM durante la implementación. En lugar de utilizar el LLM en cada paso, modificamos el procedimiento para recopilar comentarios del LLM en lotes a lo largo de horizontes prolongados para lograr un modelo de comentarios lingüísticos rentable.
Utilizaron GPT-4 LLM para predicción de acciones y retroalimentación para experimentación y ajustaron el 770M FLANT5 para obtener modelos de políticas y retroalimentación. Utilizando LLM, LFMIdentificar comportamientos productivos, mejorando políticas sin interacciones continuas de LLM. LFMLos s superan el uso directo de LLM, se generalizan a nuevos entornos y proporcionan comentarios interpretables. Ofrecen un medio rentable para mejorar las políticas y fomentar la confianza de los usuarios. En general, LFMMejoran significativamente el desempeño de las políticas, demostrando su eficacia en el seguimiento de instrucciones fundamentadas.
En conclusión, investigadores de Microsoft Research y la Universidad de Waterloo han propuesto modelos de retroalimentación lingüística. LFM sobresale en la identificación de comportamientos deseables para el aprendizaje por imitación a través de varios puntos de referencia. Superan los métodos básicos y el aprendizaje de imitación experto basado en LLM sin el uso continuo de LLM. LFMSe generalizan bien y ofrecen importantes beneficios en materia de adaptación de políticas en nuevos entornos. Además, proporcionan comentarios detallados e interpretables por humanos, lo que fomenta la confianza en los datos de imitación. Las investigaciones futuras podrían explorar el aprovechamiento de LFM detallados para el modelado de recompensas de RL y la creación de políticas confiables con verificación humana.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.