Mejora de la reconstrucción 3D de vistas dispersas con LM-Gaussian: aprovechamiento de grandes valores anteriores de modelos para la síntesis de escenas de alta calidad a partir de imágenes limitadas

Los avances recientes en la reconstrucción 3D con vistas dispersas se han centrado en nuevas técnicas de síntesis de vistas y representación de escenas. Métodos como Neural Radiance Fields (NeRF) y 3D Gaussian Splatting (3DGS) han demostrado un éxito significativo en la reconstrucción precisa de escenas complejas del mundo real. Los investigadores han propuesto varias mejoras para mejorar el rendimiento, la velocidad y la calidad. Las técnicas de reconstrucción de escenas con vistas dispersas emplean métodos de regularización y antecedentes de reconstrucción generalizables para abordar los desafíos de las vistas de entrada limitadas. Enfoques recientes como SparseGS, pixelSplat y MVSplat han mejorado aún más estos fundamentos.

La reconstrucción de escenas sin posar sigue siendo un desafío, ya que muchos de los métodos existentes dependen de poses de cámara conocidas. Las técnicas como iNeRF, NeRFmm, BARF y GARF han explorado estrategias para estimar y optimizar las poses de la cámara junto con la representación de la escena. Sin embargo, estos métodos aún enfrentan dificultades con trayectorias de cámara complejas. La introducción de LM-Gaussian representa una nueva dirección en este campo, incorporando grandes modelos previos para mejorar la calidad de la reconstrucción a partir de imágenes limitadas. Este enfoque se basa en trabajos anteriores al tiempo que aborda desafíos persistentes en la reconstrucción 3D de vista dispersa.

LM-Gaussian aborda los desafíos de reconstrucción 3D de vista dispersa al generar resultados de alta calidad a partir de imágenes de entrada limitadas. El método incorpora un módulo de inicialización robusto que utiliza valores a priori estéreo para la recuperación de la posición de la cámara y la generación confiable de nubes de puntos. Un módulo de refinamiento gaussiano iterativo emplea técnicas basadas en difusión para mejorar los detalles de la imagen y preservar las características de la escena durante la optimización de la salpicadura gaussiana 3D. Los valores a priori de difusión de video mejoran aún más las imágenes renderizadas para lograr efectos visuales realistas. Este enfoque reduce significativamente los requisitos de adquisición de datos al tiempo que mantiene una reconstrucción de escenas de 360 grados de alta calidad. Los experimentos en conjuntos de datos públicos validan la efectividad del marco en aplicaciones prácticas.

Los métodos de reconstrucción 3D anteriores, como el splatting gaussiano 3D, requieren numerosas imágenes de entrada, lo que los hace poco prácticos para aplicaciones del mundo real. Estos enfoques tienen dificultades con los escenarios de vista dispersa, lo que genera fallas de inicialización, sobreajuste y pérdida de detalles. Las soluciones existentes que emplean regularización de frecuencia y profundidad aún producen resultados desordenados debido a la dependencia de los métodos tradicionales de estructura a partir del movimiento. LM-Gaussian aborda estas limitaciones mediante la integración de múltiples modelos a priori de gran tamaño. El método consta de cuatro módulos clave: inicialización guiada por profundidad con reconocimiento de fondo, reconstrucción gaussiana regularizada multimodal, módulo de refinamiento gaussiano iterativo y a priori de difusión de video.

El módulo de inicialización de LM-Gaussian utiliza valores previos estéreo de DUSt3R para la estimación de la posición de la cámara y la creación de nubes de puntos. El proceso de reconstrucción emplea pérdida fotométrica y restricciones adicionales para optimizar los modelos 3D. El módulo de refinamiento iterativo aplica un modelo de reparación gaussiano basado en difusión para mejorar la calidad de la imagen e incorporar detalles de alta frecuencia. Los experimentos de validación en conjuntos de datos públicos demuestran la capacidad de LM-Gaussian para producir reconstrucciones de escenas de 360 grados de alta calidad con requisitos de adquisición de datos significativamente reducidos. Esta metodología integral aborda de manera eficaz los desafíos de la reconstrucción 3D de vista dispersa a través de técnicas innovadoras de inicialización, regularización y refinamiento.

LM-Gaussian demuestra avances significativos en la reconstrucción 3D de vistas dispersas, superando a métodos de referencia como DNGaussian y SparseNerf. Las métricas cuantitativas, incluidas PSNR, SSIM y LPIPS, muestran una calidad de reconstrucción mejorada y detalles más finos en las imágenes renderizadas. El método se destaca con datos de entrada limitados, logrando reconstrucciones de alta calidad a partir de solo 16 imágenes. Las técnicas de regularización multimodal mejoran el rendimiento, lo que da como resultado superficies más suaves y artefactos reducidos. LM-Gaussian supera consistentemente al 3DGS original en diferentes cantidades de imágenes de entrada, aunque sus ventajas disminuyen en configuraciones más densas.

La eficacia del método es particularmente evidente en escenarios de visión dispersa, donde preserva las estructuras y los detalles mejor que sus competidores. Las mejoras en la calidad visual incluyen superficies más suaves y menos artefactos como agujeros negros y ángulos agudos. LM-Gaussian reduce significativamente los requisitos de adquisición de datos en comparación con los métodos 3DGS tradicionales, al tiempo que mantiene resultados de alta calidad en escenas de 360 grados. Estos logros posicionan a LM-Gaussian como una solución robusta para aplicaciones prácticas de reconstrucción 3D, abordando eficazmente los desafíos de los datos de entrada limitados y demostrando un rendimiento superior en condiciones de visión dispersa.

En conclusión, LM-Gaussian presenta un nuevo enfoque para la reconstrucción 3D de vistas dispersas, aprovechando los valores previos de modelos de visión de gran tamaño. El método incorpora un módulo de inicialización robusto, regularizaciones multimodales y refinamiento de difusión iterativo para mejorar la calidad de la reconstrucción y evitar el sobreajuste. Reduce significativamente los requisitos de adquisición de datos al tiempo que logra resultados de alta calidad en escenas complejas de 360 grados. Aunque actualmente se limita a escenas estáticas, LM-Gaussian demuestra avances sustanciales en el campo. El trabajo futuro apunta a incorporar métodos 3DGS dinámicos, lo que podría expandir la aplicabilidad del método al modelado dinámico y mejorar aún más su efectividad en varios escenarios de reconstrucción 3D.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Shoaib Nazir es pasante de consultoría en MarktechPost y ha completado su doble titulación de máster en tecnología en el Instituto Indio de Tecnología (IIT) de Kharagpur. Siendo un apasionado de la ciencia de datos, le interesan especialmente las diversas aplicaciones de la inteligencia artificial en diversos ámbitos. Shoaib está impulsado por el deseo de explorar los últimos avances tecnológicos y sus implicaciones prácticas en la vida cotidiana. Su entusiasmo por la innovación y la resolución de problemas del mundo real alimenta su continuo aprendizaje y contribución al campo de la IA.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Mejora de la reconstrucción 3D de vistas dispersas con LM-Gaussian: aprovechamiento de grandes valores anteriores de modelos para la síntesis de escenas de alta calidad a partir de imágenes limitadas

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Garantizar la integridad de los datos con hash criptográfico y la cadena de bloques Ethereum

Escapar del valle de las opciones en BI

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

You missed

Garantizar la integridad de los datos con hash criptográfico y la cadena de bloques Ethereum

Miles de escáneres cerebrales revelan una consecuencia preocupante de los turnos de noche: ScienceAlert

El problema con Graham Platner

Qué significan las nuevas herramientas