NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial

¿Cómo se crea conjuntos de datos 3D para capacitar a la IA para robótica sin enfoques tradicionales costosos? Un equipo de investigadores de Nvidia lanzó “Vipe: Video Pose Engine para percepción geométrica 3D“Traer una mejora clave para AI espacial. Aborda el cuello de botella central y agonizante que ha restringido el campo de la visión de la computadora 3D durante años.

Pipa es un motor robusto y versátil diseñado para procesar imágenes de video en bruto, sin restricciones, “en el flujo” y produce automáticamente los elementos críticos de la realidad 3D:

  • Intrínsecos de la cámara (Parámetros de calibración del sensor)
  • Movimiento de cámara preciso (pose)
  • Mapas de profundidad métricos densos y densos (Distancias del mundo real para cada píxel)

Para conocer realmente la magnitud de este avance, primero debemos comprender la profunda dificultad del problema que resuelve.

El desafío: desbloquear la realidad 3D del video 2d

El objetivo final de la IA espacial es permitir que máquinas, robots, vehículos autónomos y gafas AR, perciban e interactúen con el mundo en 3D. Vivimos en un mundo 3D, pero la gran mayoría de nuestros datos grabados, desde clips de teléfonos inteligentes hasta imágenes cinematográficas, está atrapado en 2D.

El problema central: ¿Cómo tenemos ingeniería de manera confiable y escalable la realidad 3D oculta dentro de estas transmisiones de video planas?

Lograr esto con precisión del video cotidiano, que presenta movimientos inestables, objetos dinámicos y tipos de cámara desconocidos, es notoriamente difícil, pero es el Primer paso esencial para prácticamente cualquier aplicación espacial avanzada.

Problemas con los enfoques existentes

Durante décadas, el campo se ha visto obligado a elegir entre 2 paradigmas poderosos pero defectuosos.

1. La trampa de precisión (slam/sfm)

Métodos tradicionales como Localización y mapeo simultáneo (SLAM) y Estructura de la cámara (SFM) confiar en una sofisticada optimización geométrica. Son capaces de identificar la precisión en condiciones ideales.

El defecto fatal: fragilidad. Estos sistemas generalmente asumen que el mundo es estático. Introduzca un automóvil en movimiento, una pared sin textura o use una cámara desconocida, y toda la reconstrucción puede romperse. Son demasiado delicados para la realidad desordenada del video diario.

2. La pared de escalabilidad (aprendizaje profundo de extremo a extremo)

Recientemente, poderoso aprendizaje profundo han surgido modelos. Al capacitar en vastas conjuntos de datos, aprenden “antecedentes” robustos sobre el mundo y son impresionantemente resistentes al ruido y el dinamismo.

El defecto fatal: intratabilidad. Estos modelos tienen hambre computacionalmente. Sus requisitos de memoria explotan a medida que aumenta la longitud del video, lo que hace que el procesamiento de videos largos sea prácticamente imposible. Simplemente no escala.

Este punto muerto creó un dilema. El futuro de la IA avanzada exige conjuntos de datos masivos anotados con una geometría 3D perfecta, pero las herramientas requeridas para generar que los datos fueron demasiado frágil o demasiado lento implementar a escala.

Conoce a Vipe: el avance híbrido de Nvidia rompe el molde

Aquí es donde Pipa Cambia el juego. No es simplemente una mejora incremental; Es una tubería híbrida bien diseñada y bien integrada que Fusiona con éxito lo mejor de ambos mundos. Se necesita el marco de optimización eficiente y matemáticamente riguroso de SLAM clásico y le inyecta la intuición poderosa y aprendida de las redes neuronales profundas modernas.

Esta sinergia permite Pipa ser preciso, robusto, eficiente y versátil simultáneamente. Pipa ofrece una solución que escala sin comprometer la precisión.

Cómo funciona: dentro del motor Vipe

PipaLa arquitectura de ‘s utiliza una clave basada en el fotograma Ajuste del paquete (BA) estructura para la eficiencia.

Estas son las innovaciones clave:

Innovación clave 1: Una sinergia de poderosas limitaciones

Pipa logra una precisión sin precedentes al equilibrar magistralmente tres entradas críticas:

  • Flujo denso (robustez aprendida): Utiliza una red de flujo óptico aprendido para correspondencias sólidas entre cuadros, incluso en condiciones difíciles.
  • Pistas dispersas (precisión clásica): Incorpora un seguimiento de características tradicional de alta resolución para capturar detalles de grano fino, mejorando drásticamente la precisión de localización.
  • Regularización de la profundidad métrica (escala del mundo real): Vipe integra los antecedentes de los modelos de profundidad monocular de última generación para producir resultados en Verdadero, escala métrica del mundo real.

Innovación clave 2: Mastering Dynamic, escenas del mundo real

Para manejar el caos del video del mundo real, Pipa emplea herramientas avanzadas de segmentación fundamental, Grotingdino y Segmento cualquier cosa (Sam)para identificar y enmascarar objetos en movimiento (por ejemplo, personas, autos). Al ignorar de manera inteligente estas regiones dinámicas, Vipe asegura que el movimiento de la cámara se calcule solo en el entorno estático.

Innovación clave 3: Velocidad rápida y versatilidad general

Pipa opera en un notable 3-5 fps en una sola GPUhaciéndolo significativamente más rápido que los métodos comparables. Además, Vipe es universalmente aplicable, admitiendo diversos modelos de cámara que incluyen videos panorámicos estándar, de gran angular/pez e incluso 360 °, optimizando automáticamente las intrínsecos para cada uno.

Innovación clave 4: mapas de profundidad de alta fidelidad

La salida final se ve reforzada por un sofisticado paso de postprocesamiento. Vipe alinea suavemente los mapas de profundidad de alta detonación con los mapas geométricamente consistentes de su proceso de núcleo. El resultado es impresionante: mapas de profundidad que son alta fidelidad y temporalmente estable.

Los resultados son impresionantes incluso escenas complejas … ver más abajo

Rendimiento probado

Pipa Demuestra un rendimiento superior, superando las líneas de base de estimación de pose no calibradas existentes por un asombroso:

  • 18% en el conjunto de datos TUM (dinámica interior)
  • 50% en el conjunto de datos de Kitti (conducción al aire libre)

Crucialmente, las evaluaciones confirman que Vipe proporciona escala métrica precisamientras que otros enfoques/motores a menudo producen escalas inconsistentes e inutilizables.

La verdadera innovación: una explosión de datos para la IA espacial

La contribución más significativa de este trabajo no es solo el motor en sí, sino su implementación como un Fábrica de anotación de datos a gran escala Para alimentar el futuro de la IA. La falta de datos de video masivos, diversos y geométricamente anotados ha sido el cuello de botella principal para entrenar modelos 3D robustos. Pipa ¡Resuelve este problema!

El equipo de investigación usó Pipa para crear y lanzar un conjunto de datos sin precedentes por un total 96 millones de marcos anotados:

  • Dinpose-100k ++: Casi 100,000 videos de Internet del mundo real (cuadros de 15.7 millones) con poses de alta calidad y geometría densa.
  • Wild-SDG-1m: Una colección masiva de 1 millón de videos generados por IA de alta calidad (cuadros de 78 m).
  • Web360: Un conjunto de datos especializado de videos panorámicos anotados.

Esta versión masiva proporciona el combustible necesario para la próxima generación de modelos de base geométrica 3D y ya está demostrando ser instrumental en la capacitación de modelos avanzados de generación mundial como Nvidia’s Gen3c y Cosmos.

Al resolver los conflictos fundamentales entre precisión, robustez y escalabilidad, Vipe proporciona la herramienta práctica, eficiente y universal necesaria para desbloquear la estructura 3D de casi cualquier video. Su lanzamiento está listo para acelerar drásticamente la innovación en todo el paisaje de AI espacial, robótica y AR/VR.

Nvidia ai ha lanzado el Código aquí

Fuentes /enlaces

Conjuntos de datos:

  • https://huggingface.co/datasets/nvidia/vipe-dynpose-100kpp
  • https://huggingface.co/datasets/nvidia/vipe-wild-sdg-1m
  • https://huggingface.co/datasets/nvidia/vipe-web360
  • https://www.nvidia.com/en-us/ai/cosmos/

Gracias al equipo de NVIDIA por el liderazgo/ recursos de pensamiento para este artículo. El equipo de NVIDIA ha apoyado y patrocinado este contenido/artículo.


Jean-Marc es un exitoso ejecutivo de negocios de IA. Dirige y acelera el crecimiento de las soluciones de IA y comenzó una compañía de visión por computadora en 2006. Es un orador reconocido en AI Conferences y tiene un MBA de Stanford.