Este artículo de IA presenta un método innovador para modelar la dinámica de escenas 3D mediante vídeos de vistas múltiples

NVFi aborda el complejo desafío de comprender y predecir la dinámica dentro de las escenas 3D que evolucionan con el tiempo, una tarea crítica para aplicaciones de realidad aumentada, juegos y cinematografía. Mientras que los humanos comprenden sin esfuerzo la física y la geometría de tales escenas, los modelos computacionales existentes luchan por aprender explícitamente estas propiedades a partir de videos de múltiples vistas. El problema central radica en la incapacidad de los métodos predominantes, incluidos los campos de radiación neuronal y sus derivados, para extraer y predecir movimientos futuros basándose en reglas físicas aprendidas. NVFi tiene como objetivo ambicioso cerrar esta brecha incorporando campos de velocidad desenredados derivados puramente de cuadros de video de múltiples vistas, una hazaña aún inexplorada en marcos anteriores.

La naturaleza dinámica de las escenas 3D plantea un profundo desafío computacional. Si bien los avances recientes en los campos de radiación neuronal mostraron habilidades excepcionales para interpolar vistas dentro de los marcos de tiempo observados, no logran aprender características físicas explícitas, como las velocidades de los objetos. Esta limitación impide su capacidad para prever con precisión patrones de movimiento futuros. Los estudios actuales que integran la física en representaciones neuronales son prometedores en la reconstrucción de los campos de geometría, apariencia, velocidad y viscosidad de la escena. Sin embargo, estas propiedades físicas aprendidas a menudo se entrelazan con elementos específicos de la escena o requieren máscaras de segmentación de primer plano suplementarias, lo que limita su transferibilidad entre escenas. La ambición pionera de NVFi es desenredar y comprender los campos de velocidad dentro de escenas 3D completas, fomentando capacidades predictivas que se extienden más allá de las observaciones de entrenamiento.

Investigadores de la Universidad Politécnica de Hong Kong presentan un marco integral NVFi que abarca tres componentes fundamentales. En primer lugar, un campo de radiación dinámica de fotogramas clave facilita el aprendizaje de la densidad de volumen y la apariencia dependientes del tiempo para cada punto en el espacio 3D. En segundo lugar, un campo de velocidad entre cuadros captura velocidades 3D dependientes del tiempo para cada punto. Finalmente, una estrategia de optimización conjunta que involucra elementos de fotogramas clave e intercuadros, aumentada por restricciones basadas en la física, organiza el proceso de capacitación. Este marco ofrece flexibilidad en la adopción de arquitecturas NeRF existentes dependientes del tiempo para el modelado dinámico de campos de radiación mientras se emplean redes neuronales relativamente simples, como MLP, para el campo de velocidad. La innovación central radica en el tercer componente, donde la estrategia de optimización conjunta y las funciones de pérdida específicas permiten un aprendizaje preciso de los campos de velocidad desenredados sin información o máscaras adicionales específicas del objeto.

El paso innovador de NVFi es evidente en su capacidad para modelar la dinámica de escenas 3D exclusivamente a partir de fotogramas de vídeo de múltiples vistas, eliminando la necesidad de máscaras o datos específicos de objetos. Se centra meticulosamente en desenredar los campos de velocidad, un aspecto crítico que rige la dinámica del movimiento de la escena y que es la clave para numerosas aplicaciones. En múltiples conjuntos de datos, NVFi muestra su competencia para extrapolar fotogramas futuros, segmentar escenas semánticamente y transferir velocidades entre escenas dispares. Estas validaciones experimentales corroboran la adaptabilidad y el rendimiento superior de NVFi en diversos escenarios del mundo real.

Contribuciones clave y conclusiones:

Introducción de NVFi, un marco novedoso para el modelado dinámico de escenas 3D a partir de vídeos de múltiples vistas sin información previa del objeto.
Diseño e implementación de un campo de velocidad neuronal junto con una estrategia de optimización conjunta para un entrenamiento efectivo de la red.
Demostración exitosa de las capacidades de NVFi en diversos conjuntos de datos, mostrando un rendimiento superior en predicción de fotogramas futuros, descomposición semántica de escenas y transferencia de velocidad entre escenas.

Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.

🐝 [FREE AI WEBINAR] ‘Creación de aplicaciones multimodales con LlamaIndex: chat con texto + datos de imagen’ 18 de diciembre de 2023, 10 a. m. PST

Este artículo de IA presenta un método innovador para modelar la dinámica de escenas 3D mediante vídeos de vistas múltiples

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Google agrega webhooks basados en eventos a la API de Gemini, eliminando la necesidad de realizar encuestas en trabajos de IA de larga duración

Genere paneles a partir de indicaciones en lenguaje natural en Amazon Quick

Por qué el descenso del gradiente zigzaguea y cómo lo soluciona Momentum

You missed

Olvídese de los camellos robot del Imperio, este Lego Star Wars AT-TE Walker tiene un descuento de $ 28 ahora mismo

Espera, ¿el Partido Republicano del Senado quiere darle a Trump cuánto por su tonto salón de baile?

Los costos de endeudamiento de Gran Bretaña acaban de alcanzar niveles de crisis: la guerra de Irán, el enfrentamiento del Banco de Inglaterra y una elección infernal

España registra el abril más cálido jamás registrado