¿Puede el aprendizaje automático enseñar a los robots a comprendernos mejor? Esta investigación de Microsoft presenta modelos de retroalimentación lingüística para el aprendizaje avanzado por imitación

Los desafíos en el desarrollo de agentes que siguen instrucciones en entornos terrestres incluyen la eficiencia y la generalización de las muestras. Estos agentes deben aprender eficazmente de algunas demostraciones mientras se desempeñan con éxito en nuevos entornos con instrucciones novedosas después del entrenamiento. Técnicas como el aprendizaje por refuerzo y el aprendizaje por imitación se utilizan habitualmente, pero a menudo exigen numerosas pruebas o costosas demostraciones de expertos debido a su dependencia del ensayo y error o de la orientación de expertos.

En el seguimiento de la instrucción basada en el lenguaje, los agentes reciben instrucciones y observaciones parciales del entorno y toman las medidas correspondientes. El aprendizaje por refuerzo implica recibir recompensas, mientras que el aprendizaje por imitación imita acciones de expertos. La clonación conductual recopila datos de expertos fuera de línea para entrenar la política, a diferencia del aprendizaje por imitación en línea, y ayuda en tareas de largo plazo en entornos terrestres. Estudios recientes demuestran que los modelos de lenguaje grandes (LLM), cuando se entrenan previamente, muestran un aprendizaje eficiente en muestras mediante indicaciones y aprendizaje en contexto en tareas textuales y fundamentadas, incluido el control robótico. No obstante, los métodos existentes para la instrucción siguiendo escenarios fundamentados dependen de los LLM en línea durante la inferencia, lo que plantea impracticabilidad y altos costos.

Investigadores de Microsoft Research y la Universidad de Waterloo han propuesto modelos de retroalimentación lingüística (LFM) para mejorar las políticas en la instrucción. LFMAprovechamos los LLM para proporcionar retroalimentación sobre el comportamiento de los agentes en entornos sólidos, lo que ayuda a identificar acciones deseables. Al sintetizar esta retroalimentación en un formato compacto LFMla técnica permite una mejora de políticas rentable y eficiente en muestras sin una dependencia continua de los LLM. LFMGeneralizar a nuevos entornos y ofrecer retroalimentación interpretable para la validación humana de los datos de imitación.

El método propuesto introduce LFMs para mejorar el aprendizaje de políticas en la siguiente instrucción. LFMs aprovechar los LLM para identificar comportamientos productivos a partir de una política base, facilitando el aprendizaje de imitación por lotes para la mejora de políticas. Al sintetizar el conocimiento mundial de los LLM en un formato compacto LFMs, el enfoque logra una mejora de políticas generalizable y eficiente en el muestreo sin necesidad de interacciones continuas en línea con costosos LLM durante la implementación. En lugar de utilizar el LLM en cada paso, modificamos el procedimiento para recopilar comentarios del LLM en lotes a lo largo de horizontes prolongados para lograr un modelo de comentarios lingüísticos rentable.

Utilizaron GPT-4 LLM para predicción de acciones y retroalimentación para experimentación y ajustaron el 770M FLANT5 para obtener modelos de políticas y retroalimentación. Utilizando LLM, LFMIdentificar comportamientos productivos, mejorando políticas sin interacciones continuas de LLM. LFMLos s superan el uso directo de LLM, se generalizan a nuevos entornos y proporcionan comentarios interpretables. Ofrecen un medio rentable para mejorar las políticas y fomentar la confianza de los usuarios. En general, LFMMejoran significativamente el desempeño de las políticas, demostrando su eficacia en el seguimiento de instrucciones fundamentadas.

En conclusión, investigadores de Microsoft Research y la Universidad de Waterloo han propuesto modelos de retroalimentación lingüística. LFM sobresale en la identificación de comportamientos deseables para el aprendizaje por imitación a través de varios puntos de referencia. Superan los métodos básicos y el aprendizaje de imitación experto basado en LLM sin el uso continuo de LLM. LFMSe generalizan bien y ofrecen importantes beneficios en materia de adaptación de políticas en nuevos entornos. Además, proporcionan comentarios detallados e interpretables por humanos, lo que fomenta la confianza en los datos de imitación. Las investigaciones futuras podrían explorar el aprovechamiento de LFM detallados para el modelado de recompensas de RL y la creación de políticas confiables con verificación humana.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.

🚀 LLMWare lanza SLIM: pequeños modelos de llamada de funciones especializadas para la automatización de varios pasos [Check out all the models]

¿Puede el aprendizaje automático enseñar a los robots a comprendernos mejor? Esta investigación de Microsoft presenta modelos de retroalimentación lingüística para el aprendizaje avanzado por imitación

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

El contrato de 18 millones de dólares de Scottie Pippen fue el peor en la historia de la NBA

Volcada con mosca en plaza pública – Noticias Costa Tropical Gazette

Qué pasó con el juez de ‘DWTS’ – Hollywood Life

Una cueva escondida en Gran Bretaña revela hipopótamos prehistóricos, animales de la Edad del Hielo y evidencia de la existencia de los primeros humanos durante más de 100.000 años