Un equipo de investigadores de Meta Reality Labs y Carnegie Mellon University ha introducido Mapanythinguna arquitectura del transformador de extremo a extremo que retrocede directamente la geometría de la escena 3D métrica factorizada a partir de imágenes y entradas de sensores opcionales. Lanzado bajo Apache 2.0 con un código completo de capacitación y comparación de evaluación comparativa, Mapanything avanza más allá de las tuberías especializadas al apoyar más de 12 tareas distintas de visión 3D en un solo pase de alimentación hacia adelante.
¿Por qué un modelo universal para la reconstrucción 3D?
La reconstrucción 3D basada en imágenes se ha basado históricamente en tuberías fragmentadas: detección de características, estimación de pose de dos vistas, ajuste del paquete, estéreo múltiple o inferencia de profundidad monocular. Si bien son efectivas, estas soluciones modulares requieren un ajuste, optimización y un procesamiento pesado específico de tareas.
Los recientes modelos de alimentación basados en transformadores, como DUST3R, MAST3R y VGGT, las partes simplificadas de esta tubería, pero permanecieron limitados: números fijos de vistas, supuestos rígidos de la cámara o dependencia de representaciones acopladas que necesitaban una optimización costosa.
Mapanything supera estas limitaciones por:
- Aceptando hasta 2,000 imágenes de entrada en una sola ejecución de inferencia.
- Utilizando de manera flexible los datos auxiliares como Intrínsecs, poses y mapas de profundidad de la cámara.
- Productor Reconstrucciones 3D métricas directas sin ajuste del paquete.
La representación de la escena factorizada del modelo, compuesta de mapas de rayos, profundidad, poses y un factor de escala global, proporciona la modularidad y la generalidad sin igual por los enfoques anteriores.
Arquitectura y representación
En esencia, Mapanything emplea un transformador de atención alterna múltiple. Cada imagen de entrada está codificada con Dinov2 Vit-L Las características, mientras que las entradas opcionales (rayos, profundidad, posturas) se codifican en el mismo espacio latente a través de CNNS o MLP poco profundos. A token de escala aprendible Permite la normalización métrica a través de las vistas.
La red genera un representación factorizada:
- Por visión Instrucciones de rayos (Calibración de la cámara).
- Profundidad a lo largo de los rayospredicho a escala a escala.
- Poses de cámara en relación con una vista de referencia.
- Un solo factor de escala métrica convertir las reconstrucciones locales en un marco globalmente consistente.
Esta factorización explícita evita la redundancia, lo que permite que el mismo modelo maneje la estimación de profundidad monocular, estéreo múltiple, estructura de la cámara (SFM) o finalización de profundidad sin cabezas especializadas.
Estrategia de entrenamiento
Mapanything fue entrenado 13 conjuntos de datos diversos abarcando dominios interiores, al aire libre y sintéticos, incluidos MVMVMV, profundidad de escala de planeta mapilar, escaneo ++ y tartanairv2. Se lanzan dos variantes:
- Apache 2.0 con licencia modelo entrenado en seis conjuntos de datos.
- Modelo CC BY-NC Entrenado en los trece conjuntos de datos para un rendimiento más fuerte.
Las estrategias de capacitación clave incluyen:
- Abandono de la entrada probabilística: Durante el entrenamiento, las entradas geométricas (rayos, profundidad, pose) se proporcionan con diferentes probabilidades, lo que permite la robustez en las configuraciones heterogéneas.
- Muestreo basado en covisibilidad: Asegura que las vistas de entrada tengan una superposición significativa, lo que respalda la reconstrucción de hasta más de 100 vistas.
- Pérdidas factorizadas en el espacio log: La profundidad, la escala y la pose se optimizan utilizando pérdidas de regresión invariantes y robustas para mejorar la estabilidad.
El entrenamiento se realizó en 64 GPU H200 Con precisión mixta, punto de control de gradiente y programación del plan de estudios, escala de 4 a 24 vistas de entrada.
Resultados de la evaluación comparativa
Reconstrucción densa múltiple
En Eth3d, Scannet ++ V2 y Tartanairv2-WB, Mapanything logra de última generación (SOTA) Rendimiento a través de puntos de puntos, profundidad, pose y estimación de rayos. Supera las líneas de base como VGGT y POW3R incluso cuando se limita solo a las imágenes, y mejora aún más con la calibración o pose de antecedentes.
Por ejemplo:
- Error relativo de PointMap (REL) Mejora a 0.16 con solo imágenes, en comparación con 0.20 para VGGT.
- Con imágenes + intrínsecs + poses + profundidad, el error cae a 0.01mientras se logra> 90% de proporciones inlier.
Reconstrucción de dos vistas
Contra Dust3r, Mast3r y Pow3r, Mapanything supera constantemente a través de la escala, la profundidad y la precisión de pose. En particular, con antecedentes adicionales, logra > 92% de proporciones inlier En tareas de dos vistas, significativamente más allá de los modelos de avance anteriores.
Calibración de visión única
A pesar de no ser entrenado específicamente para la calibración de imagen única, Mapanything logra un Error angular promedio de 1.18 °superando a Anycalib (2.01 °) y Moge-2 (1.95 °).
Estimación de profundidad
En el punto de referencia Robust-MVD:
- Mapanything establece nuevo Sota para profundidad métrica múltiple estimación.
- Con las entradas auxiliares, sus tasas de error rival o superan modelos de profundidad especializados como MVSA y Metric3D V2.
En general, los puntos de referencia confirman 2 × Mejora sobre métodos SOTA anteriores En muchas tareas, validando los beneficios de la capacitación unificada.
Contribuciones clave
El equipo de investigación destaca cuatro contribuciones principales:
- Modelo de avance unificado Capaz de manejar más de 12 configuraciones de problemas, desde la profundidad monocular hasta SFM y estéreo.
- Representación de la escena factorizada habilitando la separación explícita de rayos, profundidad, pose y escala métrica.
- Actuación de última generación en diversos puntos de referencia con menos redundancias y mayor escalabilidad.
- Lanzamiento de código abierto incluyendo procesamiento de datos, scripts de capacitación, puntos de referencia y pesos previos al estado de entrenamiento bajo Apache 2.0.
Conclusión
Mapanything establece un nuevo punto de referencia en la visión 3D al unificar múltiples tareas de reconstrucción (SFM, estéreo, estimación de profundidad y calibración) bajo un modelo de transformador único con una representación de escena factorizada. No solo supera a los métodos especializados a través de los puntos de referencia, sino que también se adapta a la perfección a las entradas heterogéneas, incluidas las intrínsecas, las poses y la profundidad. Con el código de código abierto, los modelos previos a la aparición y el soporte para más de 12 tareas, Mapanything sienta las bases para una columna vertebral de reconstrucción 3D de uso 3D verdaderamente general.
Mira el Papel, Codos y Página del proyecto. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.
