Ezgif 4 8c40ccba69.gif

El seguimiento tridimensional (3D) a partir de vídeos RGB monoculares es un campo de vanguardia en visión por computadora e inteligencia artificial. Se centra en estimar las posiciones y movimientos tridimensionales de objetos o escenas utilizando una única señal de vídeo bidimensional.

Los métodos existentes para el seguimiento 3D a partir de vídeos RGB monoculares se centran principalmente en objetos articulados y rígidos, como dos manos o humanos que interactúan con entornos rígidos. En gran medida se ha pasado por alto el desafío de modelar deformaciones de objetos densos y no rígidos, como la interacción mano-cara. Sin embargo, estas deformaciones pueden mejorar significativamente el realismo de aplicaciones como AR/VR, comunicación de avatar virtual 3D y animaciones de personajes. La atención limitada a este tema se atribuye a la complejidad inherente de la configuración de la vista monocular y las dificultades asociadas, como la adquisición de conjuntos de datos de capacitación y evaluación adecuados y la determinación de una rigidez no uniforme razonable para objetos deformables.

Por lo tanto, este artículo presenta un método novedoso que aborda los desafíos fundamentales antes mencionados. Permite el seguimiento de manos humanas interactuando con rostros humanos en 3D a partir de vídeos RGB monoculares individuales. El método modela las manos como objetos articulados que inducen deformaciones faciales no rígidas durante interacciones activas. En la siguiente figura se presenta una descripción general de esta técnica.

Este enfoque se basa en un conjunto de datos recién creado que captura el movimiento y la interacción entre la mano y la cara, incluidas deformaciones faciales realistas. Al crear este conjunto de datos, los autores emplean dinámica basada en la posición para procesar las formas 3D sin procesar y desarrollar una técnica para estimar la rigidez no uniforme de los tejidos de la cabeza. Estos pasos dan como resultado anotaciones creíbles de deformaciones de la superficie, regiones de contacto mano-cara y posiciones cabeza-mano.

En el corazón de su enfoque neuronal se encuentra un codificador automático variacional que proporciona información de profundidad para la interacción mano-cara. Además, se emplean módulos para guiar el proceso de seguimiento 3D mediante la estimación de contactos y deformaciones. Las reconstrucciones finales en 3D de manos y rostros producidas por este método son realistas y más plausibles en comparación con varios métodos de referencia aplicables en este contexto, según lo respaldan evaluaciones cuantitativas y cualitativas.

Reconstruir ambas manos y la cara simultáneamente, considerando las deformaciones superficiales resultantes de sus interacciones, plantea una tarea notablemente desafiante. Esto se vuelve especialmente crucial para mejorar el realismo en las reconstrucciones, ya que tales interacciones se observan con frecuencia en la vida cotidiana e influyen significativamente en las impresiones que otros se forman de un individuo. En consecuencia, reconstruir las interacciones mano-cara es vital en aplicaciones como la comunicación con avatares, la realidad virtual/aumentada y la animación de personajes, donde los movimientos faciales realistas son esenciales para crear experiencias inmersivas. También tiene implicaciones para aplicaciones como la transcripción del lenguaje de signos y el control de la somnolencia del conductor.

A pesar de varios estudios centrados en la reconstrucción de los movimientos de la cara y las manos, capturar las interacciones entre ellos, junto con las deformaciones correspondientes, a partir de un vídeo RGB monocular ha permanecido en gran medida inexplorado, como señalaron Tretschk et al. en 2023. Por otro lado, intentar utilizar métodos existentes basados ​​en plantillas para la reconstrucción de manos y rostros a menudo conduce a artefactos como colisiones y la omisión de interacciones y deformaciones. Esto se debe principalmente a la ambigüedad de profundidad inherente a las configuraciones monoculares y a la ausencia de modelado de deformaciones en el proceso de reconstrucción.

Varios desafíos importantes están asociados con este problema. Un desafío (I) es la ausencia de un conjunto de datos de captura RGB sin marcadores para las interacciones de la cara y las manos con deformaciones no rígidas, que es esencial para entrenar modelos y evaluar métodos. Crear un conjunto de datos de este tipo es un gran desafío debido a las frecuentes oclusiones causadas por los movimientos de la mano y la cabeza, particularmente en regiones donde se produce una deformación no rígida. Otro desafío (II) surge de la ambigüedad de profundidad inherente de las configuraciones RGB de vista única, lo que dificulta la obtención de información de localización precisa y genera errores como colisiones o falta de contacto entre la mano y la cabeza durante las interacciones.

Para abordar estos desafíos, los autores presentan «Decaf» (abreviatura de captura de deformaciones de rostros que interactúan con las manos), un método RGB monocular diseñado para capturar interacciones de rostros y manos junto con deformaciones faciales. Específicamente, proponen una solución que combina una configuración de captura de múltiples vistas con un simulador dinámico basado en la posición para reconstruir la geometría de la superficie de interacción, incluso en presencia de oclusiones. Para incorporar el simulador de objetos deformables, determinan los valores de rigidez de una malla de cabeza mediante un método llamado “distancia cráneo-piel” (SSD), que asigna rigidez no uniforme a la malla. Este enfoque mejora significativamente la plausibilidad cualitativa de la geometría reconstruida en comparación con el uso de valores de rigidez uniformes.

Utilizando su conjunto de datos recién creado, los investigadores entrenan redes neuronales para extraer deformaciones de superficies 3D, regiones de contacto en las superficies de la cabeza y las manos, y una profundidad de interacción previa a partir de imágenes RGB de vista única. En la etapa de optimización final, esta información de diversas fuentes se utiliza para obtener interacciones realistas de manos y rostros en 3D con deformaciones de superficies no rígidas, resolviendo la ambigüedad de profundidad inherente a la configuración de vista única. Los resultados ilustrados a continuación demuestran interacciones mano-cara mucho más plausibles en comparación con los enfoques existentes.

Este fue el resumen de Decaf, un novedoso marco de IA diseñado para capturar interacciones de rostros y manos junto con deformaciones faciales. Si está interesado y desea obtener más información al respecto, no dude en consultar los enlaces que se citan a continuación.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Es un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) de la Alpen-Adria-Universität (AAU) de Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptativa, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.