Ha surgido un desafío común en la creación de activos 3D para Realidad Aumentada (AR), Realidad Virtual (VR), robótica y juegos. El aumento de la popularidad de los modelos de difusión 3D, que simplifican el complejo proceso de creación de activos 3D, viene con un problema. Estos modelos requieren acceso a modelos 3D reales o nubes de puntos para el entrenamiento, lo que puede resultar un desafío para las imágenes reales. Además, el enfoque de difusión 3D latente a menudo da como resultado un espacio latente complejo y difícil de eliminar en diversos conjuntos de datos 3D, lo que dificulta la representación de alta calidad.
Algunas soluciones existentes abordan este desafío, pero a menudo exigen mucho trabajo manual y procesos de optimización. Un equipo de investigadores de Adobe Research y Stanford ha estado trabajando para hacer que el proceso de generación 3D sea más rápido, más realista y más genérico. Un artículo reciente presenta un nuevo enfoque llamado DMV3D, un modelo de difusión independiente de categorías de una sola etapa. Este modelo puede generar campos de radiación neuronal (NeRF) 3D a partir de texto o de una condición de entrada de una sola imagen a través de la inferencia directa del modelo, lo que reduce significativamente el tiempo necesario para crear objetos 3D.
Las contribuciones críticas de DMV3D incluyen un marco de difusión pionero de una sola etapa que utiliza un modelo de difusión de imágenes 2D de múltiples vistas para la generación 3D. También introdujeron un modelo de reconstrucción grande (LRM), un eliminador de ruido de múltiples vistas que reconstruye NeRF triplanos sin ruido a partir de imágenes ruidosas de múltiples vistas. El modelo proporciona un enfoque probabilístico general para la generación de texto a 3D de alta calidad y la reconstrucción de una sola imagen, logrando una rápida inferencia directa del modelo, en solo unos 30 segundos en una sola GPU A100.
DMV3D integra la reconstrucción y renderizado NeRF 3D en su eliminador de ruido, creando un modelo de difusión de imágenes multivista 2D entrenado sin supervisión 3D directa. Esto elimina la necesidad de entrenar codificadores NeRF 3D por separado para la difusión del espacio latente y agiliza el proceso de optimización por activo. Los investigadores utilizan estratégicamente un conjunto disperso de cuatro imágenes de vistas múltiples que rodean un objeto, describiendo efectivamente un objeto 3D sin autooclusiones significativas.
Aprovechando grandes modelos de transformadores, los investigadores abordan la difícil tarea de la reconstrucción 3D con vista dispersa. Basado en el reciente modelo de reconstrucción grande 3D (LRM), introducen un novedoso modelo de reconstrucción y eliminación de ruido de articulaciones capaz de manejar varios niveles de ruido en el proceso de difusión. Este modelo se integra como eliminador de ruido de imágenes de múltiples vistas en un marco de difusión de imágenes de múltiples vistas.
DMV3D, entrenado en conjuntos de datos a gran escala que comprenden representaciones sintéticas y capturas reales, demuestra la capacidad de generar 3D de una sola etapa en aproximadamente 30 segundos en una sola GPU A100. Logra resultados de última generación en reconstrucción 3D de una sola imagen. Este trabajo proporciona una nueva perspectiva sobre cómo abordar las tareas de generación 3D al unir los ámbitos de los modelos generativos 2D y 3D, unificando la reconstrucción y generación 3D. Las implicaciones se extienden más allá de las aplicaciones inmediatas, abriendo puertas para el desarrollo de modelos fundamentales para abordar diversos desafíos en visión y gráficos 3D.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.