Investigadores de CMU y el Instituto Max Planck presentan WHAM: un innovador enfoque de IA para una estimación precisa y eficiente del movimiento humano en 3D a partir de vídeo

La reconstrucción del movimiento humano en 3D es un proceso complejo que implica capturar y modelar con precisión los movimientos de un sujeto humano en tres dimensiones. Este trabajo se vuelve aún más desafiante cuando se trata de videos capturados por una cámara en movimiento en entornos del mundo real, ya que a menudo contienen problemas como el deslizamiento del pie. Sin embargo, un equipo de investigadores de la Universidad Carnegie Mellon y el Instituto Max Planck de Sistemas Inteligentes han ideado un método llamado WHAM (World-grounded Humans with Accurate Motion) que aborda estos desafíos y logra una reconstrucción precisa del movimiento humano en 3D.

El estudio revisa dos métodos para recuperar la pose y la forma humana en 3D a partir de imágenes: sin modelo y basado en modelos. Destaca el uso de técnicas de aprendizaje profundo en métodos basados en modelos para estimar los parámetros de un modelo de cuerpo estadístico. Los métodos HPS 3D basados en vídeo existentes incorporan información temporal a través de varias arquitecturas de redes neuronales. Algunas formas emplean sensores adicionales, como sensores inerciales, pero pueden resultar intrusivos. WHAM se destaca por combinar eficazmente el movimiento humano en 3D y el contexto de vídeo, aprovechar el conocimiento previo y reconstruir con precisión la actividad humana en 3D en coordenadas globales.

La investigación aborda los desafíos a la hora de estimar con precisión la pose y la forma humana en 3D a partir de vídeo monocular, haciendo hincapié en la coherencia de las coordenadas globales, la eficiencia computacional y el contacto realista entre el pie y el suelo. Aprovechando la captura de movimiento y los conjuntos de datos de video de AMASS, WHAM combina redes de codificador-decodificador de movimiento para elevar puntos clave 2D a poses 3D, un integrador de funciones para señales temporales y una red de refinamiento de trayectoria para la estimación global del movimiento considerando el contacto del pie, mejorando la precisión en áreas no planas. superficies.

WHAM emplea un RNN unidireccional para inferencia en línea y reconstrucción precisa de movimiento 3D, con un codificador de movimiento para extracción de contexto y un decodificador de movimiento para parámetros SMPL, traducción de cámara y probabilidad de contacto pie-suelo. La utilización de una técnica de normalización del cuadro delimitador ayuda en la extracción del contexto de movimiento. El codificador de imágenes, previamente entrenado en recuperación de malla humana, captura e integra características de imagen con características de movimiento a través de una red integradora de características. Un decodificador de trayectoria predice la orientación global y un proceso de refinamiento minimiza el deslizamiento del pie. Capacitado con datos sintéticos de AMASS, WHAM supera a los métodos existentes en las evaluaciones.

https://arxiv.org/abs/2312.07531

WHAM supera los métodos actuales de última generación y muestra una precisión superior en la estimación de la forma y la postura humana en 3D por fotograma y basada en vídeo. WHAM logra una estimación precisa de la trayectoria global aprovechando el contexto del movimiento y la información de contacto del pie, minimizando el deslizamiento del pie y mejorando la coordinación internacional. El método integra características de puntos clave y píxeles 2D, lo que mejora la precisión de la reconstrucción del movimiento humano en 3D. La evaluación de puntos de referencia disponibles demuestra el rendimiento superior de WHAM en métricas como MPJPE, PA-MPJPE y PVE. La técnica de refinamiento de la trayectoria refina aún más la estimación de la trayectoria global y reduce el deslizamiento del pie, como lo demuestran las métricas de error mejoradas.

En conclusión, las conclusiones clave del estudio se pueden resumir en algunos puntos:

WHAM ha introducido un método pionero que combina movimiento humano 3D y contexto de vídeo.
La técnica mejora la pose humana en 3D y la regresión de la forma.
El proceso utiliza un marco de estimación de trayectoria global que incorpora el contexto de movimiento y el contacto del pie.
El método aborda los desafíos del deslizamiento del pie y garantiza un seguimiento 3D preciso en superficies no planas.
El enfoque de WHAM funciona bien en diversos conjuntos de datos de referencia, incluidos 3DPW, RICH y EMDB.
El método sobresale en la estimación eficiente de la postura y la forma humana en coordenadas globales.
La integración de características del método y el refinamiento de la trayectoria mejoran significativamente el movimiento y la precisión de la trayectoria global.
La precisión del método ha sido validada mediante profundos estudios de ablación.

Revisar la Papel, Proyectoy Código. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.

🐝 [Free Webinar] Alexa, actualiza mi aplicación: integra Voice AI en tu estrategia (15 de diciembre de 2023)

Investigadores de CMU y el Instituto Max Planck presentan WHAM: un innovador enfoque de IA para una estimación precisa y eficiente del movimiento humano en 3D a partir de vídeo

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Perplexity lanza Brain, un sistema de memoria de mejora automática que crea un gráfico contextual del trabajo de un agente y aprende de la noche a la mañana

MIT en los medios: Para el futuro de la tecnología, “Massachusetts puede liderar absolutamente” | Noticias del MIT

Guía NVIDIA SkillSpector: Análisis de habilidades de IA en busca de riesgos de seguridad con análisis estático e informes SARIF

You missed

El nuevo vehículo de crecimiento de 500 millones de euros, E2D, tiene como objetivo cerrar la brecha de escalamiento de DefenceTech en Europa

SMGS siente el calor mientras Blinston quema La Finca – The Leader

Fósiles extraordinarios reescriben la historia de cómo los animales conquistaron la tierra

Todo lo que toca Trump muere, excepto las algas en el estanque reflectante