Investigadores de CMU y el Instituto Max Planck presentan WHAM: un innovador enfoque de IA para una estimación precisa y eficiente del movimiento humano en 3D a partir de vídeo

La reconstrucción del movimiento humano en 3D es un proceso complejo que implica capturar y modelar con precisión los movimientos de un sujeto humano en tres dimensiones. Este trabajo se vuelve aún más desafiante cuando se trata de videos capturados por una cámara en movimiento en entornos del mundo real, ya que a menudo contienen problemas como el deslizamiento del pie. Sin embargo, un equipo de investigadores de la Universidad Carnegie Mellon y el Instituto Max Planck de Sistemas Inteligentes han ideado un método llamado WHAM (World-grounded Humans with Accurate Motion) que aborda estos desafíos y logra una reconstrucción precisa del movimiento humano en 3D.

El estudio revisa dos métodos para recuperar la pose y la forma humana en 3D a partir de imágenes: sin modelo y basado en modelos. Destaca el uso de técnicas de aprendizaje profundo en métodos basados ​​en modelos para estimar los parámetros de un modelo de cuerpo estadístico. Los métodos HPS 3D basados ​​en vídeo existentes incorporan información temporal a través de varias arquitecturas de redes neuronales. Algunas formas emplean sensores adicionales, como sensores inerciales, pero pueden resultar intrusivos. WHAM se destaca por combinar eficazmente el movimiento humano en 3D y el contexto de vídeo, aprovechar el conocimiento previo y reconstruir con precisión la actividad humana en 3D en coordenadas globales.

La investigación aborda los desafíos a la hora de estimar con precisión la pose y la forma humana en 3D a partir de vídeo monocular, haciendo hincapié en la coherencia de las coordenadas globales, la eficiencia computacional y el contacto realista entre el pie y el suelo. Aprovechando la captura de movimiento y los conjuntos de datos de video de AMASS, WHAM combina redes de codificador-decodificador de movimiento para elevar puntos clave 2D a poses 3D, un integrador de funciones para señales temporales y una red de refinamiento de trayectoria para la estimación global del movimiento considerando el contacto del pie, mejorando la precisión en áreas no planas. superficies.

WHAM emplea un RNN unidireccional para inferencia en línea y reconstrucción precisa de movimiento 3D, con un codificador de movimiento para extracción de contexto y un decodificador de movimiento para parámetros SMPL, traducción de cámara y probabilidad de contacto pie-suelo. La utilización de una técnica de normalización del cuadro delimitador ayuda en la extracción del contexto de movimiento. El codificador de imágenes, previamente entrenado en recuperación de malla humana, captura e integra características de imagen con características de movimiento a través de una red integradora de características. Un decodificador de trayectoria predice la orientación global y un proceso de refinamiento minimiza el deslizamiento del pie. Capacitado con datos sintéticos de AMASS, WHAM supera a los métodos existentes en las evaluaciones.

https://arxiv.org/abs/2312.07531

WHAM supera los métodos actuales de última generación y muestra una precisión superior en la estimación de la forma y la postura humana en 3D por fotograma y basada en vídeo. WHAM logra una estimación precisa de la trayectoria global aprovechando el contexto del movimiento y la información de contacto del pie, minimizando el deslizamiento del pie y mejorando la coordinación internacional. El método integra características de puntos clave y píxeles 2D, lo que mejora la precisión de la reconstrucción del movimiento humano en 3D. La evaluación de puntos de referencia disponibles demuestra el rendimiento superior de WHAM en métricas como MPJPE, PA-MPJPE y PVE. La técnica de refinamiento de la trayectoria refina aún más la estimación de la trayectoria global y reduce el deslizamiento del pie, como lo demuestran las métricas de error mejoradas.

En conclusión, las conclusiones clave del estudio se pueden resumir en algunos puntos:

  • WHAM ha introducido un método pionero que combina movimiento humano 3D y contexto de vídeo.
  • La técnica mejora la pose humana en 3D y la regresión de la forma.
  • El proceso utiliza un marco de estimación de trayectoria global que incorpora el contexto de movimiento y el contacto del pie.
  • El método aborda los desafíos del deslizamiento del pie y garantiza un seguimiento 3D preciso en superficies no planas.
  • El enfoque de WHAM funciona bien en diversos conjuntos de datos de referencia, incluidos 3DPW, RICH y EMDB.
  • El método sobresale en la estimación eficiente de la postura y la forma humana en coordenadas globales.
  • La integración de características del método y el refinamiento de la trayectoria mejoran significativamente el movimiento y la precisión de la trayectoria global.
  • La precisión del método ha sido validada mediante profundos estudios de ablación.

Revisar la Papel, Proyectoy Código. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.