Este artículo de IA propone salpicaduras gaussianas 3D sin COLMAP (CF3DGS) para una síntesis de vistas novedosas sin parámetros de cámara conocidos

El progreso en la representación neuronal ha traído avances significativos en la reconstrucción de escenas y la generación de nuevos puntos de vista. Sin embargo, su eficacia depende en gran medida del cálculo previo preciso de las poses de la cámara. Para minimizar este problema, se han realizado muchos esfuerzos para entrenar campos de radiación neuronal (NeRF) sin poses de cámara precalculadas. Sin embargo, la representación implícita de NeRF dificulta la optimización simultánea de la estructura 3D y las poses de la cámara.

Investigadores de UC San Diego, NVIDIA y UC Berkeley presentaron COLMAP-Free 3D Gaussian Splatting (CF-3DGS), que mejora dos ingredientes clave: la continuidad temporal del vídeo y la representación explícita de la nube de puntos. En lugar de optimizar con todos los fotogramas a la vez, CF-3DGS construyó los gaussianos 3D de la escena de forma continua, “haciendo crecer” una estructura a la vez a medida que la cámara se mueve. CF-3DGS extrae un conjunto gaussiano 3D local para cada cuadro y mantiene un conjunto gaussiano 3D global de toda la escena.

https://arxiv.org/abs/2312.07504

Se han empleado diferentes representaciones de escenas en 3D para generar imágenes realistas desde puntos de vista, incluidos planos, mallas, nubes de puntos e imágenes multiplano. Los NeRF (campos de radiación neuronal) han ganado prominencia en este campo debido a su excepcional capacidad de representación fotorrealista. El método 3DGS (3D Gaussian Splatting) permite la representación de vistas en tiempo real utilizando una representación explícita pura y un método de dispersión basado en puntos diferenciales.

Vista de síntesis CF-3DGS sin parámetros de cámara conocidos. Optimiza el 3D Gaussian Splatting (3DGS) y las poses de la cámara simultáneamente. Utiliza un método 3DGS local para estimar la pose relativa de la cámara a partir de fotogramas cercanos y un proceso 3DGS global para la expansión progresiva de gaussianos 3D a partir de vistas no observadas. CF-3DGS utiliza nubes de puntos explícitas para representar escenas y aprovecha las capacidades de 3DGS y la continuidad inherente. en transmisiones de vídeo. Procesa secuencialmente fotogramas de entrada, expandiendo progresivamente las gaussianas 3D para reconstruir la escena. Este enfoque logra velocidades rápidas de entrenamiento e inferencia.

https://arxiv.org/abs/2312.07504

El método CF-3DGS logra una mayor solidez en la estimación de la pose y una mejor calidad en la síntesis de vistas novedosas que los métodos de última generación anteriores. El método está validado en vídeos CO3D, que presentan movimientos de cámara más complejos y desafiantes, y supera al método Nope-NeRF en términos de calidad de síntesis de visualización. El enfoque supera consistentemente a Nope-NeRFe en todas las métricas en la estimación de la pose de la cámara en el conjunto de datos CO3D V2, lo que demuestra su solidez y precisión en la estimación de las poses de la cámara, especialmente en escenarios con movimientos de cámara complejos.

Para concluir, CF-3DGS es un método que sintetiza de manera efectiva y robusta vistas utilizando la continuidad temporal del video y la representación explícita de la nube de puntos sin la necesidad de un preprocesamiento de Estructura a partir del movimiento (SfM). Optimiza la pose de la cámara y el 3DGS de forma conjunta, lo que lo hace adecuado principalmente para secuencias de vídeo o colecciones de imágenes ordenadas. También tiene potencial para futuras extensiones para dar cabida a colecciones de imágenes desordenadas.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.