NVFi aborda el complejo desafío de comprender y predecir la dinámica dentro de las escenas 3D que evolucionan con el tiempo, una tarea crítica para aplicaciones de realidad aumentada, juegos y cinematografía. Mientras que los humanos comprenden sin esfuerzo la física y la geometría de tales escenas, los modelos computacionales existentes luchan por aprender explícitamente estas propiedades a partir de videos de múltiples vistas. El problema central radica en la incapacidad de los métodos predominantes, incluidos los campos de radiación neuronal y sus derivados, para extraer y predecir movimientos futuros basándose en reglas físicas aprendidas. NVFi tiene como objetivo ambicioso cerrar esta brecha incorporando campos de velocidad desenredados derivados puramente de cuadros de video de múltiples vistas, una hazaña aún inexplorada en marcos anteriores.
La naturaleza dinámica de las escenas 3D plantea un profundo desafío computacional. Si bien los avances recientes en los campos de radiación neuronal mostraron habilidades excepcionales para interpolar vistas dentro de los marcos de tiempo observados, no logran aprender características físicas explícitas, como las velocidades de los objetos. Esta limitación impide su capacidad para prever con precisión patrones de movimiento futuros. Los estudios actuales que integran la física en representaciones neuronales son prometedores en la reconstrucción de los campos de geometría, apariencia, velocidad y viscosidad de la escena. Sin embargo, estas propiedades físicas aprendidas a menudo se entrelazan con elementos específicos de la escena o requieren máscaras de segmentación de primer plano suplementarias, lo que limita su transferibilidad entre escenas. La ambición pionera de NVFi es desenredar y comprender los campos de velocidad dentro de escenas 3D completas, fomentando capacidades predictivas que se extienden más allá de las observaciones de entrenamiento.
Investigadores de la Universidad Politécnica de Hong Kong presentan un marco integral NVFi que abarca tres componentes fundamentales. En primer lugar, un campo de radiación dinámica de fotogramas clave facilita el aprendizaje de la densidad de volumen y la apariencia dependientes del tiempo para cada punto en el espacio 3D. En segundo lugar, un campo de velocidad entre cuadros captura velocidades 3D dependientes del tiempo para cada punto. Finalmente, una estrategia de optimización conjunta que involucra elementos de fotogramas clave e intercuadros, aumentada por restricciones basadas en la física, organiza el proceso de capacitación. Este marco ofrece flexibilidad en la adopción de arquitecturas NeRF existentes dependientes del tiempo para el modelado dinámico de campos de radiación mientras se emplean redes neuronales relativamente simples, como MLP, para el campo de velocidad. La innovación central radica en el tercer componente, donde la estrategia de optimización conjunta y las funciones de pérdida específicas permiten un aprendizaje preciso de los campos de velocidad desenredados sin información o máscaras adicionales específicas del objeto.
El paso innovador de NVFi es evidente en su capacidad para modelar la dinámica de escenas 3D exclusivamente a partir de fotogramas de vídeo de múltiples vistas, eliminando la necesidad de máscaras o datos específicos de objetos. Se centra meticulosamente en desenredar los campos de velocidad, un aspecto crítico que rige la dinámica del movimiento de la escena y que es la clave para numerosas aplicaciones. En múltiples conjuntos de datos, NVFi muestra su competencia para extrapolar fotogramas futuros, segmentar escenas semánticamente y transferir velocidades entre escenas dispares. Estas validaciones experimentales corroboran la adaptabilidad y el rendimiento superior de NVFi en diversos escenarios del mundo real.
Contribuciones clave y conclusiones:
- Introducción de NVFi, un marco novedoso para el modelado dinámico de escenas 3D a partir de vídeos de múltiples vistas sin información previa del objeto.
- Diseño e implementación de un campo de velocidad neuronal junto con una estrategia de optimización conjunta para un entrenamiento efectivo de la red.
- Demostración exitosa de las capacidades de NVFi en diversos conjuntos de datos, mostrando un rendimiento superior en predicción de fotogramas futuros, descomposición semántica de escenas y transferencia de velocidad entre escenas.
Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.