Este documento de IA presenta PEVA: un modelo de difusión condicionado a todo el cuerpo para predecir el video egocéntrico del movimiento humano

El estudio de la percepción visual humana a través de vistas egocéntricas es crucial en el desarrollo de sistemas inteligentes capaces de comprender e interactuar con su entorno. Esta área enfatiza cómo los movimientos del cuerpo humano, que se extienden desde la locomoción hasta la manipulación del brazo, mueven lo que se ve desde una perspectiva en primera persona. Comprender esta relación es esencial para permitir que las máquinas y los robots planifiquen y actúen con un sentido de anticipación visual humano, particularmente en escenarios del mundo real donde la visibilidad está influenciada dinámicamente por el movimiento físico.

Desafíos en el modelado de la percepción física fundamentada

Un obstáculo importante en este dominio surge del desafío de la enseñanza de los sistemas cómo las acciones corporales afectan la percepción. Acciones como el cambio o la flexión cambian lo que es visible de formas sutiles y a menudo retrasadas. Capturar esto requiere más que simplemente predecir lo que viene después en un video, implica vincular los movimientos físicos con los cambios resultantes en la entrada visual. Sin la capacidad de interpretar y simular estos cambios, los agentes encarnados luchan para planificar o interactuar de manera efectiva en entornos dinámicos.

Limitaciones de modelos anteriores y la necesidad de puesta a tierra física

Hasta ahora, las herramientas diseñadas para predecir el video de las acciones humanas han sido de alcance limitado. Los modelos a menudo han usado entrada de baja dimensión, como la velocidad o la dirección de la cabeza, y han pasado por alto la complejidad del movimiento de todo el cuerpo. Estos enfoques simplificados pasan por alto el control y la coordinación de grano fino requeridos para simular las acciones humanas con precisión. Incluso en los modelos de generación de videos, el movimiento del cuerpo generalmente se ha tratado como la salida en lugar del controlador de la predicción. Esta falta de base física ha restringido la utilidad de estos modelos para la planificación del mundo real.

Presentación de PEVA: Predicción de video egocéntrico de la acción

Investigadores de UC Berkeley, Meta’s Fair y New York University introdujeron un nuevo marco llamado PEVA para superar estas limitaciones. El modelo predice los futuros marcos de video egocéntricos basados en datos estructurados de movimiento de cuerpo completo, derivados de trayectorias de pose del cuerpo 3D. PEVA tiene como objetivo demostrar cómo los movimientos de todo el cuerpo influyen en lo que una persona ve, fundamentando así la conexión entre la acción y la percepción. Los investigadores emplearon un transformador de difusión condicional para aprender este mapeo y capacitarlo usando Nymeria, un gran conjunto de datos que comprende videos egocéntricos del mundo real sincronizados con captura de movimiento de cuerpo completo.

Representación de acción estructurada y arquitectura de modelos

La base de PEVA radica en su capacidad para representar acciones de manera altamente estructurada. Cada entrada de acción es un vector de 48 dimensiones que incluye la traducción de la raíz y las rotaciones a nivel de articulación en 15 juntas de la parte superior del cuerpo en el espacio 3D. Este vector se normaliza y se transforma en un marco de coordenadas local centrado en la pelvis para eliminar cualquier sesgo posicional. Al utilizar esta representación integral de la dinámica del cuerpo, el modelo captura la naturaleza continua y matizada del movimiento real. PEVA está diseñado como un modelo de difusión autorregresivo que utiliza un codificador de video para convertir los marcos en representaciones estatales latentes y predice marcos posteriores basados en estados anteriores y acciones corporales. Para admitir la generación de videos a largo plazo, el sistema presenta chaleas de tiempo aleatorias durante la capacitación, lo que le permite aprender de las consecuencias visuales inmediatas y retrasadas del movimiento.

Evaluación y resultados del rendimiento

En términos de rendimiento, PEVA se evaluó en varias métricas que evalúan las capacidades de predicción de video a corto y largo plazo. El modelo pudo generar marcos de video visualmente consistentes y semánticamente precisos durante períodos prolongados de tiempo. Para las predicciones a corto plazo, evaluadas a intervalos de 2 segundos, logró puntajes LPIP más bajos y una mayor consistencia de sueños en las líneas de base, lo que indica una calidad perceptiva superior. El sistema también descompuso el movimiento humano en acciones atómicas, como los movimientos del brazo y las rotaciones del cuerpo para evaluar el control de grano fino. Además, el modelo se probó en despliegos extendidos de hasta 16 segundos, simulando con éxito los resultados retrasados mientras se mantiene la coherencia de la secuencia. Estos experimentos confirmaron que la incorporación del control de cuerpo completo condujo a mejoras sustanciales en el realismo y la capacidad de control de video.

Conclusión: hacia la inteligencia encarnada físicamente fundamentada

Esta investigación destaca un avance significativo en la predicción de futuros videos egocéntricos al fundamentar el modelo en el movimiento humano físico. El problema de vincular la acción de todo el cuerpo con los resultados visuales se aborda con un método técnicamente robusto que utiliza representaciones de pose estructuradas y aprendizaje basado en la difusión. La solución introducida por el equipo ofrece una dirección prometedora para los sistemas de IA incorporados que requieren previsión precisa y físicamente fundamentada.


Mira el Papel aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeoy YouTube Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.