Predicción de vídeos egocéntricos a partir de acciones humanas (PEVA). Dados los fotogramas de vídeo anteriores y una acción que especifica un cambio deseado en la pose 3D, PEVA predice el siguiente fotograma de vídeo. Nuestros resultados muestran que, dado el primer cuadro y una secuencia de acciones, nuestro modelo puede generar videos de acciones atómicas (a), simular contrafactuales (b) y admitir la generación de videos largos (c).
Los últimos años han traído avances significativos en los modelos mundiales que aprenden a simular resultados futuros para la planificación y el control. Desde la física intuitiva hasta la predicción de vídeo de varios pasos, estos modelos se han vuelto cada vez más potentes y expresivos. Pero pocos están diseñados para agentes verdaderamente encarnados. Para crear un modelo mundial para agentes encarnados, necesitamos un agente encarnado real que actúe en el mundo real. Un agente encarnado real tiene un espacio de acción complejo basado físicamente en lugar de señales de control abstractas. También deben actuar en diversos escenarios de la vida real y presentar una visión egocéntrica en contraposición a escenas estéticas y cámaras estacionarias.
💡 Consejo: haz clic en cualquier imagen para verla en resolución completa.
Por qué es difícil
La acción y la visión dependen en gran medida del contexto. Una misma visión puede dar lugar a diferentes movimientos y viceversa. Esto se debe a que los humanos actúan en entornos complejos, encarnados y dirigidos a objetivos. El control humano es de alta dimensión y estructurado. El movimiento de todo el cuerpo abarca más de 48 grados de libertad con una dinámica jerárquica y dependiente del tiempo. La visión egocéntrica revela la intención pero oculta el cuerpo. La visión en primera persona refleja objetivos, pero no la ejecución de movimientos; los modelos deben inferir consecuencias de acciones físicas invisibles. La percepción va por detrás de la acción. La retroalimentación visual a menudo llega segundos después, lo que requiere predicción a largo plazo y razonamiento temporal.
Para desarrollar un modelo mundial para agentes encarnados, debemos basar nuestro enfoque en agentes que cumplan con estos criterios. Los seres humanos rutinariamente miramos primero y actuamos después: nuestros ojos se fijan en un objetivo, el cerebro realiza una breve “simulación” visual del resultado y sólo entonces el cuerpo se mueve. En todo momento, nuestra visión egocéntrica sirve como información del entorno y refleja la intención/objetivo detrás del siguiente movimiento. Cuando consideramos los movimientos de nuestro cuerpo, debemos considerar tanto las acciones de los pies (locomoción y navegación) como las acciones de la mano (manipulación), o más en general, el control de todo el cuerpo.
¿Qué hicimos?
Entrenamos un modelo para PAGredactar miir centrado Video de humano Actions (PEVA) para la predicción de vídeo egocéntrica condicionada por todo el cuerpo. Condiciones PEVA en trayectorias de posturas cinemáticas estructuradas por la jerarquía conjunta del cuerpo, aprendiendo a simular cómo las acciones físicas humanas dan forma al entorno desde una vista en primera persona. Entrenamos un transformador de difusión condicional autorregresivo en Nymeria, un conjunto de datos a gran escala que combina videos egocéntricos del mundo real con captura de poses corporales. Nuestro protocolo de evaluación jerárquica prueba tareas cada vez más desafiantes, proporcionando un análisis integral de las capacidades de control y predicción incorporadas del modelo. Este trabajo representa un intento inicial de modelar entornos complejos del mundo real y comportamientos de agentes incorporados a través de la predicción de video desde la perspectiva humana.
Método
Representación de acción estructurada a partir de movimiento
Para unir el movimiento humano y la visión egocéntrica, representamos cada acción como un vector rico y de alta dimensión que captura tanto la dinámica de todo el cuerpo como los movimientos articulares detallados. En lugar de utilizar controles simplificados, codificamos la traducción global y las rotaciones relativas de las articulaciones en función del árbol cinemático del cuerpo. El movimiento se representa en un espacio 3D con 3 grados de libertad para la traslación de las raíces y 15 articulaciones de la parte superior del cuerpo. El uso de ángulos de Euler para rotaciones relativas de articulaciones produce un espacio de acción de 48 dimensiones (3 + 15 × 3 = 48). Los datos de captura de movimiento se alinean con el video mediante marcas de tiempo y luego se convierten de coordenadas globales a un marco local centrado en la pelvis para lograr invariancia de posición y orientación. Todas las posiciones y rotaciones están normalizadas para garantizar un aprendizaje estable. Cada acción captura los cambios de movimiento entre fotogramas, lo que permite al modelo conectar el movimiento físico con las consecuencias visuales a lo largo del tiempo.
Diseño de PEVA: Transformador de difusión condicional autorregresivo
Si bien el transformador de difusión condicional (CDiT) de Navigation World Models utiliza señales de control simples como la velocidad y la rotación, modelar el movimiento humano de todo el cuerpo presenta mayores desafíos. Las acciones humanas son de alta dimensión, temporalmente extendidas y físicamente limitadas. Para abordar estos desafíos, ampliamos el método CDiT de tres maneras:
Saltos de tiempo aleatorios: permite que el modelo aprenda tanto la dinámica de movimiento a corto plazo como los patrones de actividad a largo plazo. Entrenamiento a nivel de secuencia: modela secuencias de movimiento completas aplicando pérdida sobre cada prefijo de fotograma. Incrustaciones de acciones: concatena todas las acciones en el momento t en un tensor 1D para condicionar cada capa de AdaLN para el movimiento de todo el cuerpo de alta dimensión.
Estrategia de muestreo y despliegue
En el momento de la prueba, generamos marcos futuros condicionando un conjunto de marcos de contexto pasados. Codificamos estos fotogramas en estados latentes y agregamos ruido al fotograma objetivo, que luego se elimina progresivamente utilizando nuestro modelo de difusión. Para acelerar la inferencia, restringimos la atención, donde dentro de la imagen la atención se aplica solo al cuadro de destino y la atención cruzada de contexto solo se aplica al último cuadro. Para la predicción condicionada por la acción, utilizamos una estrategia de implementación autorregresiva. Comenzando con marcos de contexto, los codificamos usando un codificador VAE y agregamos la acción actual. Luego, el modelo predice el siguiente fotograma, que se agrega al contexto mientras se elimina el fotograma más antiguo, y el proceso se repite para cada acción de la secuencia. Finalmente, decodificamos las latentes predichas en el espacio de píxeles utilizando un decodificador VAE.
Acciones atómicas
Descomponemos movimientos humanos complejos en acciones atómicas, como movimientos de las manos (arriba, abajo, izquierda, derecha) y movimientos de todo el cuerpo (hacia adelante, rotación), para probar la comprensión del modelo sobre cómo los movimientos específicos a nivel de las articulaciones afectan la visión egocéntrica. Incluimos aquí algunos ejemplos:
Lanzamiento largo
Aquí puede ver la capacidad del modelo para mantener la coherencia visual y semántica en horizontes de predicción extendidos. Demostramos algunas muestras de PEVA que generan despliegues coherentes de 16 segundos condicionados al movimiento de todo el cuerpo. Incluimos algunos ejemplos de videos y ejemplos de imágenes para verlos más de cerca aquí:
Secuencia 1
Secuencia 2
Secuencia 3
Planificación
PEVA se puede utilizar para la planificación simulando múltiples acciones candidatas y calificándolas en función de su similitud perceptiva con el objetivo, medida por LPIPS.
En este ejemplo, descarta caminos que conduzcan al fregadero o al exterior encontrando el camino correcto para abrir el frigorífico.
En este ejemplo, descarta caminos que conducen a agarrar plantas cercanas e ir a la cocina, mientras encuentra una secuencia razonable de acciones que conducen al estante.
Permite la capacidad de planificación visual
Formulamos la planificación como un problema de minimización de energía y realizamos optimización de acciones utilizando el Método de Entropía Cruzada (CEM), siguiendo el enfoque introducido en Navigation World Models. [arXiv:2412.03572]. Específicamente, optimizamos las secuencias de acción para el brazo izquierdo o derecho mientras mantenemos fijas otras partes del cuerpo. A continuación se muestran ejemplos representativos de los planes resultantes:
En este caso, somos capaces de predecir una secuencia de acciones que eleva nuestro brazo derecho hacia la varilla de mezcla. Vemos una limitación en nuestro método, ya que solo predecimos el brazo derecho, por lo que no predecimos mover el brazo izquierdo hacia abajo en consecuencia.
En este caso, podemos predecir una secuencia de acciones que se dirigen hacia la tetera pero no llegan a agarrarla como en el caso de la meta.
En este caso, podemos predecir una secuencia de acciones que atraen nuestro brazo izquierdo, similar a la meta.
Resultados cuantitativos
Evaluamos PEVA a través de múltiples métricas para demostrar su efectividad en generar videos egocéntricos de alta calidad a partir de acciones de todo el cuerpo. Nuestro modelo supera consistentemente las líneas base en calidad de percepción, mantiene la coherencia en horizontes temporales prolongados y muestra sólidas propiedades de escala con el tamaño del modelo.
Métricas de percepción de referencia
Comparación de métricas de percepción de referencia entre diferentes modelos.
Rendimiento de acción atómica
Comparación de modelos en la generación de videos de acciones atómicas.
Comparación de FID
Comparación de FID entre diferentes modelos y horizontes temporales.
Escalada
PEVA tiene buena capacidad de escalamiento. Los modelos más grandes conducen a un mejor rendimiento.
Direcciones futuras
Nuestro modelo demuestra resultados prometedores en la predicción de videos egocéntricos a partir del movimiento de todo el cuerpo, pero sigue siendo un primer paso hacia la planificación incorporada. La planificación se limita a simular acciones del brazo candidato y carece de planificación a largo plazo y optimización completa de la trayectoria. Extender PEVA al control de circuito cerrado o entornos interactivos es el siguiente paso clave. Actualmente, el modelo carece de condicionamiento explícito sobre la intención de la tarea o los objetivos semánticos. Nuestra evaluación utiliza la similitud de imágenes como objetivo indirecto. El trabajo futuro podría aprovechar la combinación de PEVA con condicionamiento de objetivos de alto nivel y la integración de representaciones centradas en objetos.
Expresiones de gratitud
Los autores agradecen a Rithwik Nukala por su ayuda a la hora de anotar las acciones atómicas. Agradecemos a Katerina Fragkiadaki, Philipp Krähenbühl, Bharath Hariharan, Guanya Shi, Shubham Tulsiani y Deva Ramanan por las útiles sugerencias y comentarios para mejorar el artículo; Jianbo Shi por la discusión sobre la teoría del control; Yilun Du por el apoyo en materia de forzamiento por difusión; Brent Yi por su ayuda en trabajos relacionados con el movimiento humano y Alexei Efros por la discusión y los debates sobre los modelos mundiales. Este trabajo está parcialmente respaldado por la ONR MURI N00014-21-1-2801.
Para obtener más detalles, lea el artículo completo o visite el sitio web del proyecto.