MVGD del Toyota Research Institute: Reconstrucción de la escena 3D de disparo cero

Los investigadores del Toyota Research Institute han presentado la difusión geométrica múltiple de vista (MVGD), una arquitectura innovadora basada en difusión que sintetiza directamente los nuevos RGB de alta fidelidad y los mapas de profundidad de imágenes dispersas y planteadas, pasando por alto la necesidad de representaciones 3D explícitas como Nerf o Splats Gaussianos 3D. Esta innovación promete redefinir la frontera de la síntesis 3D ofreciendo una solución simplificada, robusta y escalable para generar contenido 3D realista.

El desafío central de las direcciones MVGD es lograr una consistencia de visión múltiple: garantizar que los puntos de vista nuevos generados se integren sin problemas en el espacio 3D. Los métodos tradicionales dependen de la construcción de modelos 3D complejos, que a menudo sufren limitaciones de memoria, entrenamiento lento y generalización limitada. MVGD, sin embargo, integra el razonamiento 3D implícito directamente en un solo modelo de difusión, generando imágenes y mapas de profundidad que mantienen la alineación de escala y la coherencia geométrica con imágenes de entrada sin construcción intermedia del modelo 3D.

MVGD aprovecha el poder de los modelos de difusión, conocidos por su generación de imágenes de alta fidelidad, para codificar la información de apariencia y profundidad simultáneamente

Los componentes innovadores clave incluyen:

  • Difusión a nivel de píxel: A diferencia de los modelos de difusión latente, MVGD funciona a resolución de imágenes original utilizando una arquitectura basada en token, preservando detalles finos.
  • Incruscaciones de tareas conjuntas: Un diseño de tareas múltiples permite que el modelo genere conjuntamente imágenes RGB y mapas de profundidad, aprovechando un prior geométrico y visual unificado.
  • Normalización de la escala de escena: MVGD normaliza automáticamente la escala de la escena en función de las posturas de la cámara de entrada, asegurando la coherencia geométrica en diversos conjuntos de datos.

La capacitación en una escala sin precedentes, con más de 60 millones de muestras de imágenes de visión múltiple de conjuntos de datos sintéticos y del mundo real, potencia a MVGD con capacidades de generalización excepcionales. Este conjunto de datos masivo habilita:

  • Generalización de disparo cero: MVGD demuestra un rendimiento robusto en dominios invisibles sin ajuste fino explícito.
  • Robustez a la dinámica: A pesar de no modelar explícitamente el movimiento, MVGD maneja efectivamente escenas con objetos en movimiento.

MVGD logra un rendimiento de última generación en puntos de referencia como RealEsTate10K, CO3DV2 y Scannet, superando o coinciden con los métodos existentes en la síntesis de vista novedosa y la estimación de profundidad múltiple.

MVGD introduce acondicionamiento incremental y ajuste fino escalable, mejorando su versatilidad y eficiencia.

  • El acondicionamiento incremental permite refinar las vistas novedosas generadas al volver a alimentarlas en el modelo.
  • El ajuste fino escalable permite la expansión del modelo incremental, aumentando el rendimiento sin un reentrenamiento extenso.

Las implicaciones de MVGD son significativas:

  • Tuberías 3D simplificadas: Eliminar las representaciones 3D explícitas optimiza la síntesis de visión novedosa y la estimación de profundidad.
  • Realismo mejorado: La generación de RGB y profundidad conjunta proporciona puntos de vista novedosos realizados y consistentes en 3D.
  • Escalabilidad y adaptabilidad: MVGD maneja variables números de vistas de entrada, cruciales para la captura 3D a gran escala.
  • Iteración rápida: El ajuste fino incremental facilita la adaptación a nuevas tareas y complejidades.

MVGD representa un salto significativo en la síntesis 3D, fusionando la elegancia de difusión con señales geométricas robustas para proporcionar imágenes fotorrealistas y profundidad de escala. Este avance señala la aparición de modelos de difusión de “geometría primero”, preparados para revolucionar la creación de contenido inmersivo, la navegación autónoma y la IA espacial.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Jean-Marc es un exitoso ejecutivo de negocios de IA. Dirige y acelera el crecimiento de las soluciones de IA y comenzó una compañía de visión por computadora en 2006. Es un orador reconocido en AI Conferences y tiene un MBA de Stanford.