Esta investigación de IA de Google DeepMind desbloquea nuevos potenciales en robótica: mejora de la colaboración entre humanos y robots a través de modelos de lenguaje optimizados con control predictivo de modelos de lenguaje

En robótica, el lenguaje natural es una interfaz accesible para guiar a los robots, lo que potencialmente capacita a personas con capacitación limitada para dirigir comportamientos, expresar preferencias y ofrecer retroalimentación. Estudios recientes han subrayado las capacidades inherentes de los grandes modelos de lenguaje (LLM), previamente entrenados con una gran cantidad de datos de Internet, para abordar diversas tareas robóticas. Estas tareas van desde diseñar secuencias de acción basadas en comandos de lenguaje hasta generar código de robot. Las interacciones multiturno permiten la incorporación de retroalimentación en tiempo real, fomentando la adaptabilidad y el aprendizaje. Sin embargo, el desafío radica en la capacidad de los LLM para retener información contextual durante interacciones prolongadas, lo que lleva a olvidar instrucciones previas más allá de un horizonte determinado.

Para abordar estos desafíos, los esfuerzos de investigación en curso buscan mejorar la capacidad de enseñanza de los LLM para tareas de robots permitiéndoles retener información contextual de interacciones anteriores. La capacidad de enseñanza se convierte en un punto focal, medida por el número promedio de entradas humanas necesarias para que un robot complete una tarea en la interacción humano-robot (HRI) basada en el lenguaje de múltiples turnos. Los enfoques existentes, como resumir la retroalimentación humana o las preferencias para referencia futura, encuentran limitaciones a la hora de generalizar más allá de las tareas de capacitación.

Surge un enfoque novedoso, cuyo objetivo es aumentar la capacidad de enseñanza a través de una fusión de aprendizaje en contexto para una rápida adaptación durante las interacciones y un ajuste fino del modelo para una mejora a largo plazo. Este enfoque trata las interacciones entre humanos y robots como un proceso de decisión de Markov parcialmente observable (POMDP), lo que permite al LLM predecir interacciones futuras e integrar esta capacidad predictiva con técnicas robóticas clásicas como el control predictivo de modelos (MPC). El marco resultante, denominado Control predictivo del modelo de lenguaje (LMPC), permite al LLM anticipar las próximas interacciones y tomar decisiones óptimas en tiempo real.

La amplia validación experimental, que incorpora evaluaciones ciegas A/B, subraya la eficacia del ajuste con LMPC para mejorar la capacidad de enseñanza de los LLM en diversas tareas y realizaciones de robots. LMPC supera las líneas base de recuperación y demuestra una generalización sólida a tareas invisibles e interfaces de programación de aplicaciones (API) de robots. Además, el LMPC condicionado por el usuario superior, que prioriza los datos de los usuarios competentes, amplifica el rendimiento en todos los usuarios y funciones, mostrando su eficacia a la hora de aprovechar diversos aportes didácticos.

A pesar de los resultados prometedores, este enfoque presenta limitaciones inherentes y abre vías para exploración futura. Se proporcionan discusiones detalladas sobre estas limitaciones y perspectivas para futuras investigaciones. Los autores planean publicar materiales complementarios, incluidos videos, códigos y conjuntos de datos, para facilitar futuras investigaciones y avances en este floreciente campo de la interacción entre humanos y robots.

En conclusión, la integración del procesamiento del lenguaje natural con la robótica es inmensamente prometedora para democratizar la programación de robots y mejorar la interacción entre humanos y robots. El marco LMPC propuesto representa un importante paso adelante en la mejora de la capacidad de enseñanza de los LLM para tareas de robots al combinar una rápida adaptación durante las interacciones con el ajuste fino del modelo a largo plazo. A medida que avanza la investigación en este campo, los avances en LMPC y las metodologías relacionadas pueden revolucionar potencialmente la forma en que se enseña a los robots e interactúan con los humanos. Al abordar los desafíos de retención y generalización contextual, LMPC allana el camino para una colaboración más intuitiva y eficiente entre humanos y robots, abriendo puertas a una amplia gama de aplicaciones en todas las industrias y dominios.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….

Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.

🚀 LLMWare lanza SLIM: pequeños modelos de llamada de funciones especializadas para la automatización de varios pasos [Check out all the models]

Esta investigación de IA de Google DeepMind desbloquea nuevos potenciales en robótica: mejora de la colaboración entre humanos y robots a través de modelos de lenguaje optimizados con control predictivo de modelos de lenguaje

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI lanza GPT-5.6 (Sol, Terra, Luna): una familia de modelos de tres niveles con herramienta programática que llama en la API de respuestas

Ingeniería de bucles para recuperación jerárquica: lectura de un documento extenso según su índice

Meta Superintelligence Labs lanza Muse Spark 1.1: un modelo de razonamiento multimodal para tareas agentes en Meta Model API

You missed

‘No tengo nada que ponerme…’ – El Líder

El Voyager Golden Record lleva una pequeña muestra de uranio en su cubierta, colocada allí para que quien la encuentre pueda medir la desintegración y calcular cuánto tiempo ha estado a la deriva: un reloj incorporado para un mensaje diseñado para durar alrededor de mil millones de años.

El tiempo en Mallorca para el viernes diez de julio

La serie de comedia de Kay Kay Menon, Adarsh Baal Vidyalaya, se estrenará en ESTA fecha