Los modelos generativos, como las Redes Generativas Adversarias (GAN), tienen la capacidad de generar imágenes realistas de objetos e individuos vestidos después de haber sido entrenados en una extensa colección de imágenes. Aunque el resultado resultante es una imagen 2D, numerosas aplicaciones requieren avatares virtuales 3D diversos y de alta calidad. Estos avatares deberían permitir el control de la pose y del punto de vista de la cámara al tiempo que garantizan la coherencia 3D. Para abordar la demanda de avatares 3D, la comunidad de investigación explora modelos generativos capaces de generar automáticamente formas 3D de humanos y ropa en función de parámetros de entrada como la postura y la forma del cuerpo. A pesar de los considerables avances, la mayoría de los métodos existentes pasan por alto la textura y se basan en escaneos 3D precisos y limpios de humanos para el entrenamiento. La adquisición de tales exploraciones es costosa, lo que limita su disponibilidad y diversidad.
Desarrollar un método para aprender a generar formas y texturas humanas en 3D a partir de datos de imágenes no estructuradas presenta un problema desafiante y poco restringido. Cada instancia de entrenamiento exhibe formas y apariencias únicas, observadas solo una vez desde puntos de vista y posturas específicas. Si bien los avances recientes en GAN con reconocimiento 3D han mostrado resultados impresionantes para objetos rígidos, estos métodos enfrentan dificultades para generar seres humanos realistas debido a la complejidad de la articulación humana. Aunque algunos trabajos recientes demuestran la viabilidad de aprender seres humanos articulados, los enfoques existentes luchan con una calidad, resolución y desafíos limitados al modelar ropa holgada.
El artículo presentado en este artículo presenta un método novedoso para la generación humana en 3D a partir de colecciones de imágenes en 2D, logrando una calidad de imagen y geometría de última generación al tiempo que modela eficazmente ropa holgada.
La descripción general del método propuesto se ilustra a continuación.
Este método adopta un diseño monolítico capaz de modelar tanto el cuerpo humano como ropa holgada, partiendo del enfoque de representar humanos con partes del cuerpo separadas. Se incorporan múltiples discriminadores para mejorar los detalles geométricos y centrarse en regiones perceptualmente importantes.
Se propone un novedoso diseño de generador para abordar el objetivo de una alta calidad de imagen y un manejo flexible de ropa holgada, modelando humanos en 3D de manera integral en un espacio canónico. El módulo de articulación, Fast-SNARF, es responsable del movimiento y posicionamiento de las partes del cuerpo y se adapta al entorno generativo. Además, el modelo adopta la omisión de espacios vacíos, optimizando y acelerando la representación de áreas sin contenido significativo para mejorar la eficiencia general.
Los discriminadores modulares 2D se guían por información normal, es decir, consideran la direccionalidad de las superficies en el espacio 3D. Esta guía ayuda al modelo a centrarse en regiones que son perceptivamente importantes para los observadores humanos, lo que contribuye a un resultado más preciso y visualmente agradable. Además, los discriminadores priorizan los detalles geométricos, mejorando la calidad general de las imágenes generadas. Esta mejora probablemente contribuya a una representación más realista y visualmente atractiva de los modelos humanos en 3D.
Los resultados experimentales informados anteriormente demuestran una mejora significativa del método propuesto con respecto a los métodos anteriores con reconocimiento de articulación y 3D en términos de geometría y calidad de textura, validados cuantitativa, cualitativamente y a través de estudios de percepción.
En resumen, esta contribución incluye un modelo generativo de humanos articulados en 3D con apariencia y geometría de última generación, un generador eficiente para ropa holgada y discriminadores especializados que mejoran la fidelidad visual y geométrica. Los autores planean publicar el código y los modelos para una mayor exploración.
Revisar la Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Es un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) de la Alpen-Adria-Universität (AAU) de Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptativa, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.