Presentamos D4RT, un modelo de IA unificado para la reconstrucción y el seguimiento de escenas 4D en el espacio y el tiempo.
Cada vez que miramos el mundo, realizamos una extraordinaria hazaña de memoria y predicción. Vemos y entendemos las cosas como son en un momento dado, como eran hace un momento, y cómo serán en el momento siguiente. Nuestro modelo mental del mundo mantiene una representación persistente de la realidad y utilizamos ese modelo para sacar conclusiones intuitivas sobre la relación causal entre el pasado, el presente y el futuro.
Para ayudar a las máquinas a ver el mundo más como nosotros, podemos equiparlas con cámaras, pero eso sólo resuelve el problema de la entrada. Para darle sentido a esta información, las computadoras deben resolver un problema complejo e inverso: tomar un video (que es una secuencia de proyecciones planas en 2D) y recuperar o comprender el rico y volumétrico mundo 3D en movimiento.
Hoy presentamos D4RT (Reconstrucción y seguimiento dinámico 4D), un nuevo modelo de IA que unifica la reconstrucción dinámica de escenas en un marco único y eficiente, acercándonos a la próxima frontera de la inteligencia artificial: la percepción total de nuestra realidad dinámica.
El desafío de la cuarta dimensión
Para poder comprender una escena dinámica capturada en un vídeo 2D, un modelo de IA debe rastrear cada píxel de cada objeto a medida que se mueve a través de las tres dimensiones del espacio y la cuarta dimensión del tiempo. Además, debe separar este movimiento del movimiento de la cámara, manteniendo una representación coherente incluso cuando los objetos se mueven uno detrás de otro o abandonan el encuadre por completo. Tradicionalmente, capturar este nivel de geometría y movimiento a partir de videos 2D requiere procesos computacionales intensivos o un mosaico de modelos de IA especializados (algunos para profundidad, otros para movimiento o ángulos de cámara), lo que resulta en reconstrucciones de IA lentas y fragmentadas.
La arquitectura simplificada y el novedoso mecanismo de consulta de D4RT lo colocan a la vanguardia de la reconstrucción 4D y, al mismo tiempo, es hasta 300 veces más eficiente que los métodos anteriores, lo suficientemente rápido para aplicaciones en tiempo real en robótica, realidad aumentada y más.
Cómo funciona D4RT: un enfoque basado en consultas
D4RT funciona como una arquitectura transformadora codificadora-decodificadora unificada. El codificador primero procesa el vídeo de entrada en una representación comprimida de la geometría y el movimiento de la escena. A diferencia de los sistemas más antiguos que empleaban módulos separados para diferentes tareas, D4RT calcula solo lo que necesita utilizando un mecanismo de consulta flexible centrado en una única pregunta fundamental:
“¿Dónde se encuentra un píxel determinado del vídeo en el espacio 3D en un momento arbitrario, visto desde una cámara elegida?”
A partir de nuestro trabajo anterior, un decodificador liviano consulta esta representación para responder instancias específicas de la pregunta planteada. Como las consultas son independientes, se pueden procesar en paralelo en hardware de IA moderno. Esto hace que D4RT sea extremadamente rápido y escalable, ya sea rastreando solo unos pocos puntos o reconstruyendo una escena completa.