Investigadores de Adobe proponen DMV3D: un novedoso enfoque de generación 3D que utiliza un modelo de reconstrucción grande 3D basado en transformadores para eliminar el ruido de la difusión de múltiples vistas

Ha surgido un desafío común en la creación de activos 3D para Realidad Aumentada (AR), Realidad Virtual (VR), robótica y juegos. El aumento de la popularidad de los modelos de difusión 3D, que simplifican el complejo proceso de creación de activos 3D, viene con un problema. Estos modelos requieren acceso a modelos 3D reales o nubes de puntos para el entrenamiento, lo que puede resultar un desafío para las imágenes reales. Además, el enfoque de difusión 3D latente a menudo da como resultado un espacio latente complejo y difícil de eliminar en diversos conjuntos de datos 3D, lo que dificulta la representación de alta calidad.

Algunas soluciones existentes abordan este desafío, pero a menudo exigen mucho trabajo manual y procesos de optimización. Un equipo de investigadores de Adobe Research y Stanford ha estado trabajando para hacer que el proceso de generación 3D sea más rápido, más realista y más genérico. Un artículo reciente presenta un nuevo enfoque llamado DMV3D, un modelo de difusión independiente de categorías de una sola etapa. Este modelo puede generar campos de radiación neuronal (NeRF) 3D a partir de texto o de una condición de entrada de una sola imagen a través de la inferencia directa del modelo, lo que reduce significativamente el tiempo necesario para crear objetos 3D.

Las contribuciones críticas de DMV3D incluyen un marco de difusión pionero de una sola etapa que utiliza un modelo de difusión de imágenes 2D de múltiples vistas para la generación 3D. También introdujeron un modelo de reconstrucción grande (LRM), un eliminador de ruido de múltiples vistas que reconstruye NeRF triplanos sin ruido a partir de imágenes ruidosas de múltiples vistas. El modelo proporciona un enfoque probabilístico general para la generación de texto a 3D de alta calidad y la reconstrucción de una sola imagen, logrando una rápida inferencia directa del modelo, en solo unos 30 segundos en una sola GPU A100.

DMV3D integra la reconstrucción y renderizado NeRF 3D en su eliminador de ruido, creando un modelo de difusión de imágenes multivista 2D entrenado sin supervisión 3D directa. Esto elimina la necesidad de entrenar codificadores NeRF 3D por separado para la difusión del espacio latente y agiliza el proceso de optimización por activo. Los investigadores utilizan estratégicamente un conjunto disperso de cuatro imágenes de vistas múltiples que rodean un objeto, describiendo efectivamente un objeto 3D sin autooclusiones significativas.

Aprovechando grandes modelos de transformadores, los investigadores abordan la difícil tarea de la reconstrucción 3D con vista dispersa. Basado en el reciente modelo de reconstrucción grande 3D (LRM), introducen un novedoso modelo de reconstrucción y eliminación de ruido de articulaciones capaz de manejar varios niveles de ruido en el proceso de difusión. Este modelo se integra como eliminador de ruido de imágenes de múltiples vistas en un marco de difusión de imágenes de múltiples vistas.

DMV3D, entrenado en conjuntos de datos a gran escala que comprenden representaciones sintéticas y capturas reales, demuestra la capacidad de generar 3D de una sola etapa en aproximadamente 30 segundos en una sola GPU A100. Logra resultados de última generación en reconstrucción 3D de una sola imagen. Este trabajo proporciona una nueva perspectiva sobre cómo abordar las tareas de generación 3D al unir los ámbitos de los modelos generativos 2D y 3D, unificando la reconstrucción y generación 3D. Las implicaciones se extienden más allá de las aplicaciones inmediatas, abriendo puertas para el desarrollo de modelos fundamentales para abordar diversos desafíos en visión y gráficos 3D.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Niharika

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-264x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-902x1024.jpg"/>

Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.

✅ [Featured AI Model] Consulte LLMWare y sus LLM de parámetros 7B especializados en RAG

Investigadores de Adobe proponen DMV3D: un novedoso enfoque de generación 3D que utiliza un modelo de reconstrucción grande 3D basado en transformadores para eliminar el ruido de la difusión de múltiples vistas

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi K2.7-Code: un modelo de codificación que reporta un +21,8 % en Kimi Code Bench v2 sobre K2.6

Pensé que la ingeniería de datos era solo escribir guiones. Me equivoqué.

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

You missed

Los colgantes con dientes de animales enterrados con antiguos cazadores-recolectores pueden revelar quién cazaba y quién pescaba

El gobierno del Reino Unido dio a terroristas y criminales 37.500 millones de dólares

El cohete H3 de Japón se recupera de un fracaso con un lanzamiento exitoso de regreso al vuelo con 6 satélites

Dentro de la guerra de transmisión de deportes por £ 10 mil millones