D4RT: Reconstrucción y seguimiento de escenas 4D rápido y unificado

Presentamos D4RT, un modelo de IA unificado para la reconstrucción y el seguimiento de escenas 4D en el espacio y el tiempo.

Cada vez que miramos el mundo, realizamos una extraordinaria hazaña de memoria y predicción. Vemos y entendemos las cosas como son en un momento dado, como eran hace un momento, y cómo serán en el momento siguiente. Nuestro modelo mental del mundo mantiene una representación persistente de la realidad y utilizamos ese modelo para sacar conclusiones intuitivas sobre la relación causal entre el pasado, el presente y el futuro.

Para ayudar a las máquinas a ver el mundo más como nosotros, podemos equiparlas con cámaras, pero eso sólo resuelve el problema de la entrada. Para darle sentido a esta información, las computadoras deben resolver un problema complejo e inverso: tomar un video (que es una secuencia de proyecciones planas en 2D) y recuperar o comprender el rico y volumétrico mundo 3D en movimiento.

Hoy presentamos D4RT (Reconstrucción y seguimiento dinámico 4D), un nuevo modelo de IA que unifica la reconstrucción dinámica de escenas en un marco único y eficiente, acercándonos a la próxima frontera de la inteligencia artificial: la percepción total de nuestra realidad dinámica.

El desafío de la cuarta dimensión

Para poder comprender una escena dinámica capturada en un vídeo 2D, un modelo de IA debe rastrear cada píxel de cada objeto a medida que se mueve a través de las tres dimensiones del espacio y la cuarta dimensión del tiempo. Además, debe separar este movimiento del movimiento de la cámara, manteniendo una representación coherente incluso cuando los objetos se mueven uno detrás de otro o abandonan el encuadre por completo. Tradicionalmente, capturar este nivel de geometría y movimiento a partir de videos 2D requiere procesos computacionales intensivos o un mosaico de modelos de IA especializados (algunos para profundidad, otros para movimiento o ángulos de cámara), lo que resulta en reconstrucciones de IA lentas y fragmentadas.

La arquitectura simplificada y el novedoso mecanismo de consulta de D4RT lo colocan a la vanguardia de la reconstrucción 4D y, al mismo tiempo, es hasta 300 veces más eficiente que los métodos anteriores, lo suficientemente rápido para aplicaciones en tiempo real en robótica, realidad aumentada y más.

Cómo funciona D4RT: un enfoque basado en consultas

D4RT funciona como una arquitectura transformadora codificadora-decodificadora unificada. El codificador primero procesa el vídeo de entrada en una representación comprimida de la geometría y el movimiento de la escena. A diferencia de los sistemas más antiguos que empleaban módulos separados para diferentes tareas, D4RT calcula solo lo que necesita utilizando un mecanismo de consulta flexible centrado en una única pregunta fundamental:

“¿Dónde se encuentra un píxel determinado del vídeo en el espacio 3D en un momento arbitrario, visto desde una cámara elegida?”

A partir de nuestro trabajo anterior, un decodificador liviano consulta esta representación para responder instancias específicas de la pregunta planteada. Como las consultas son independientes, se pueden procesar en paralelo en hardware de IA moderno. Esto hace que D4RT sea extremadamente rápido y escalable, ya sea rastreando solo unos pocos puntos o reconstruyendo una escena completa.

D4RT: Reconstrucción y seguimiento de escenas 4D rápido y unificado

ByEquipo de 7 minutos

El desafío de la cuarta dimensión

Cómo funciona D4RT: un enfoque basado en consultas

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi K3: un modelo MoE abierto de 2,8 billones de parámetros con atención Kimi Delta y contexto 1M

Cómo aprovechar al máximo Claude Fable 5

OpenAI detalla GPT-Red: un modelo interno automatizado de equipos rojos que venció a los equipos rojos humanos entre un 84% y un 13% con una inyección inmediata

You missed

ENGO, con sede en Grenoble, recauda 5,1 millones de euros para ampliar sus gafas AR ligeras para deportistas

Dentro del mundo privado de Matt Damon con su esposa Luciana y sus 4 hijas

El análisis de los huesos de las princesas del antiguo Egipto revela que eran algo rudas: ScienceAlert

Trump no muestra ningún voto ilegal de 2020