Los primeros intentos de generación 3D se centraron en la reconstrucción de una sola vista utilizando modelos específicos de categorías. Los avances recientes utilizan generadores de imágenes y videos previamente entrenados, en particular modelos de difusión, para permitir la generación de dominio abierto. El ajuste fino de los conjuntos de datos de múltiples vistas mejoró los resultados, pero persistieron los desafíos para generar composiciones e interacciones complejas. Los esfuerzos por mejorar la composicionalidad en los modelos de generación de imágenes enfrentaron dificultades para transferir técnicas a la generación 3D. Algunos métodos extendieron los enfoques de destilación a la generación 3D compositiva, optimizando los objetos individuales y las relaciones espaciales al tiempo que se adherían a las restricciones físicas.
La síntesis de interacciones entre humanos y objetos ha avanzado con métodos como InterFusion, que genera interacciones basadas en indicaciones textuales. Sin embargo, persisten limitaciones en el control de las identidades de los humanos y los objetos. Muchos enfoques tienen dificultades para preservar la identidad y la estructura de la malla humana durante la generación de interacciones. Estos desafíos resaltan la necesidad de técnicas más efectivas que permitan un mayor control del usuario y una integración práctica en los procesos de producción de entornos virtuales. Este documento se basa en esfuerzos previos para abordar estas limitaciones y mejorar la generación de interacciones entre humanos y objetos en entornos 3D.
Investigadores de la Universidad de Oxford y la Universidad Carnegie Mellon introdujeron un método de disparo cero para sintetizar interacciones entre humanos y objetos en 3D mediante descripciones textuales. El enfoque aprovecha los modelos de difusión de texto a imagen para abordar los desafíos que surgen de las diversas geometrías de los objetos y los conjuntos de datos limitados. Optimiza la articulación de la malla humana mediante gradientes de muestreo por destilación de puntajes de estos modelos. El método emplea una representación implícita-explícita dual, que combina campos de radiancia neuronal con articulación de malla impulsada por esqueletos para preservar la identidad del personaje. Este enfoque innovador evita la recopilación extensa de datos, lo que permite la generación de HOI realistas para una amplia gama de objetos e interacciones, lo que avanza en el campo de la síntesis de interacción en 3D.
DreamHOI emplea una representación dual implícita-explícita, que combina campos de radiancia neuronal (NeRF) con articulación de malla impulsada por esqueleto. Este enfoque optimiza la articulación de malla humana con piel y, al mismo tiempo, preserva la identidad del personaje. El método utiliza el muestreo por destilación de puntajes para obtener gradientes de modelos de difusión de texto a imagen entrenados previamente, lo que guía el proceso de optimización. La optimización alterna entre formas implícitas y explícitas, refinando los parámetros de articulación de malla para alinearlos con las descripciones textuales. La representación de la malla con piel junto con la malla del objeto permite la optimización directa de los parámetros de pose explícitos, lo que mejora la eficiencia debido a la cantidad reducida de parámetros.
Una amplia experimentación valida la eficacia de DreamHOI. Los estudios de ablación evalúan el impacto de varios componentes, incluidos los regularizadores y las técnicas de renderizado. Las evaluaciones cualitativas y cuantitativas demuestran el rendimiento del modelo en comparación con las líneas base. Diversas pruebas de indicadores muestran la versatilidad del método para generar interacciones de alta calidad en diferentes escenarios. La implementación de una técnica de combinación de guías mejora aún más la coherencia de la optimización. Esta metodología integral y las pruebas rigurosas establecen a DreamHOI como un enfoque sólido para generar interacciones entre humanos y objetos realistas y contextualmente apropiadas en entornos 3D.
DreamHOI se destaca en la generación de interacciones entre humanos y objetos en 3D a partir de indicaciones textuales, superando a las líneas base con puntuaciones de similitud CLIP más altas. Su representación dual implícita-explícita combina NeRF y articulación de malla impulsada por esqueleto, lo que permite una optimización flexible de la pose al tiempo que preserva la identidad del personaje. El proceso de optimización en dos etapas, que incluye 5000 pasos de refinamiento de NeRF, contribuye a obtener resultados de alta calidad. Los regularizadores desempeñan un papel crucial en el mantenimiento del tamaño y la alineación adecuados del modelo. Un regresor facilita las transiciones entre NeRF y representaciones de malla con piel. DreamHOI supera las limitaciones de métodos como DreamFusion en el mantenimiento de la estructura e identidad de la malla. Este enfoque es prometedor para aplicaciones en la producción de películas y juegos, simplificando la creación de entornos virtuales realistas con humanos interactuando.
En conclusión, DreamHOI presenta un nuevo enfoque para generar interacciones realistas entre humanos y objetos en 3D mediante indicaciones textuales. El método emplea una representación implícita-explícita dual, que combina NeRF con parámetros de pose explícitos de mallas con piel. Este enfoque, junto con el muestreo por destilación de puntuaciones, optimiza los parámetros de pose de manera efectiva. Los resultados experimentales demuestran el rendimiento superior de DreamHOI en comparación con los métodos de referencia, y los estudios de ablación confirman la importancia de cada componente. El artículo aborda los desafíos de la optimización directa de los parámetros de pose y destaca el potencial de DreamHOI para simplificar la creación de entornos virtuales. Este avance abre nuevas posibilidades para aplicaciones en la industria del entretenimiento y más allá.
Echa un vistazo a la Papel y Página del proyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Shoaib Nazir es pasante de consultoría en MarktechPost y ha completado su doble titulación de máster en tecnología en el Instituto Indio de Tecnología (IIT) de Kharagpur. Siendo un gran apasionado de la ciencia de datos, le interesan especialmente las diversas aplicaciones de la inteligencia artificial en diversos ámbitos. Shoaib está impulsado por el deseo de explorar los últimos avances tecnológicos y sus implicaciones prácticas en la vida cotidiana. Su entusiasmo por la innovación y la resolución de problemas del mundo real alimenta su continuo aprendizaje y contribución al campo de la IA.