Meta FAIR lanza Meta Motivo: un nuevo modelo básico de comportamiento para controlar agentes humanoides virtuales basados ​​en la física para una amplia gama de tareas complejas de todo el cuerpo

Los modelos básicos, previamente entrenados con una gran cantidad de datos sin etiquetar, han surgido como un enfoque de vanguardia para desarrollar sistemas de IA versátiles capaces de resolver tareas complejas mediante indicaciones específicas. Los investigadores ahora están explorando el potencial de extender este paradigma más allá de los dominios lingüísticos y visuales, centrándose en modelos básicos de comportamiento (BFM) para agentes que interactúan con entornos dinámicos. Específicamente, la investigación tiene como objetivo desarrollar BFM para agentes humanoides, dirigidos al control de todo el cuerpo a través de observaciones propioceptivas. Este enfoque aborda un desafío de larga data en robótica e inteligencia artificial, caracterizado por la alta dimensionalidad y la inestabilidad intrínseca de los sistemas de control humanoides. El objetivo final es crear modelos generalizados que puedan expresar diversos comportamientos en respuesta a diversas indicaciones, incluida la imitación, el logro de objetivos y la optimización de recompensas.

Los metainvestigadores presentan FB-CPR (Representaciones hacia adelante y hacia atrás con regularización de política condicional)un innovador algoritmo de aprendizaje por refuerzo no supervisado en línea diseñado para fundamentar el aprendizaje de políticas a través de comportamientos no etiquetados únicamente mediante observación. La innovación técnica clave del algoritmo implica la utilización de representaciones hacia adelante y hacia atrás para incrustar trayectorias sin etiquetar en un espacio latente compartido, utilizando un discriminador condicional latente para alentar políticas que “cubran” de manera integral los estados del conjunto de datos. Para demostrar la eficacia del método, el equipo desarrolló META MOTIVO, un modelo básico de comportamiento para el control humanoide de todo el cuerpo al que se le puede solicitar que resuelva diversas tareas, como el seguimiento del movimiento, el logro de objetivos y la optimización de recompensas en un escenario de aprendizaje de disparo cero. El modelo utiliza el esqueleto SMPL y el conjunto de datos de captura de movimiento AMASS para lograr una expresividad conductual notable.

Los investigadores introducen un enfoque sólido para el aprendizaje de representación hacia adelante y hacia atrás (FB) con regularización de políticas condicional. En la etapa previa al entrenamiento, el agente tiene acceso a un conjunto de datos de comportamiento sin etiquetar que contiene trayectorias de solo observación. El método se centra en desarrollar un conjunto continuo de políticas condicionadas latentes donde las variables latentes se extraen de una distribución definida sobre un espacio latente. Al representar comportamientos a través del espacio conjunto de estados y variables latentes, los investigadores pretenden capturar diversos patrones de movimiento. La innovación clave radica en inferir variables latentes para cada trayectoria utilizando el método ERFB, que permite codificar trayectorias en un espacio de representación compartido. El objetivo final es regularizar el entrenamiento no supervisado del modelo de base conductual minimizando la discrepancia entre la distribución de políticas inducidas y la distribución del conjunto de datos.

La investigación presenta una evaluación integral del desempeño del algoritmo FB-CPR en múltiples categorías de tareas. FB-CPR demuestra capacidades notables de disparo cero, logrando el 73,4% del rendimiento del algoritmo de primera línea sin capacitación explícita para tareas específicas. En tareas de maximización de recompensas, el método supera las líneas de base no supervisadas, logrando notablemente el 177 % del rendimiento de DIFFUSER y manteniendo al mismo tiempo una complejidad computacional significativamente menor. Para las tareas de consecución de objetivos, FB-CPR tiene un rendimiento comparable al de las líneas de base especializadas, superando a las alternativas de disparo cero en un 48 % y un 118 % en métricas de proximidad y éxito, respectivamente. Un estudio de evaluación humana reveló además que, si bien los algoritmos de tareas específicas podrían lograr un mayor rendimiento numérico, FB-CPR fue percibido consistentemente como más “humano”, y los participantes calificaron sus comportamientos como más naturales en el 83% de las tareas basadas en recompensas y en el 69% de las tareas basadas en recompensas. % de escenarios de consecución de objetivos.

Esta investigación introdujo FB-RCP, un algoritmo único que combina propiedades de tiro cero de modelos hacia adelante y hacia atrás con técnicas de regularización innovadoras para el aprendizaje de políticas utilizando conjuntos de datos de comportamiento sin etiquetar. Al entrenar el primer modelo básico de comportamiento para el control de agentes humanoides complejos, el método demostró un rendimiento de vanguardia en diversas tareas. A pesar de sus importantes logros, el enfoque tiene limitaciones notables. FB-CPR tiene dificultades con tareas muy alejadas de los conjuntos de datos de captura de movimiento y, en ocasiones, produce movimientos imperfectos, particularmente en escenarios que involucran caídas o estar de pie. El modelo actual está restringido a observaciones propioceptivas y no puede navegar en entornos ni interactuar con objetos. Las direcciones de investigación futuras incluyen la integración de variables de estado adicionales, la exploración de métodos de percepción complejos, la utilización de conjuntos de datos de actividad humana basados ​​en videos y el desarrollo de técnicas de alineación de políticas lingüísticas más directas para ampliar las capacidades y la generalización del modelo.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.