Separar un vídeo en numerosas capas, cada una con su mate alfa, y luego recomponer las capas nuevamente en el vídeo original es el desafío conocido como “video mate”. Dado que es posible intercambiar capas o procesarlas por separado antes de volver a componerlas, tiene muchos usos en la industria de la edición de video y se ha estudiado durante décadas. Las aplicaciones en las que se desean máscaras únicamente del tema de interés incluyen la rotoscopia en la producción de vídeo y el desenfoque del fondo en reuniones en línea. Sin embargo, generalmente se desea la capacidad de producir mates de vídeo que incorporen no sólo el elemento de interés sino también sus efectos relacionados, incluidas sombras y reflejos. Esto podría mejorar el realismo de la película final y al mismo tiempo disminuir la necesidad de la laboriosa segmentación manual de los efectos secundarios.
Se prefiere reconstruir un fondo limpio en aplicaciones como la eliminación de objetos, y poder factorizar los impactos relevantes de los objetos en primer plano ayuda a lograr precisamente eso. A pesar de sus ventajas, la mala formulación de este problema ha llevado a que se investigue mucho menos que el problema de las esteras estándar.
Omnimatte es el esfuerzo más prometedor hasta la fecha para abordar este problema. Los omnimattes son capas RGBA que registran elementos en movimiento en primer plano y los efectos que producen. El uso de homografía por parte de Omnimatte para modelar fondos significa que solo puede ser efectivo para videos en los que el fondo es plano o en los que el único tipo de movimiento es la rotación.
D2NeRF hace un esfuerzo por resolver este problema modelando los componentes dinámicos y estáticos de la escena por separado utilizando dos campos de radiancia. Todo el procesamiento se realiza en tres dimensiones y el sistema puede manejar escenarios complejos con mucho movimiento de cámara. Además, no se requiere entrada de máscara, lo que lo hace completamente autosupervisado. No está claro cómo combinar la guía 2D definida en vídeo, como máscaras aproximadas, pero sí segmenta eficazmente todos los elementos en movimiento desde un fondo estático.
Una investigación reciente realizada por la Universidad de Maryland y Meta sugiere un enfoque que combina las ventajas de ambos mediante el uso de un modelo de fondo 3D con capas de primer plano 2D.
Los objetos, acciones y efectos que serían difíciles de crear en 3D pueden representarse mediante capas ligeras de primer plano 2D. Al mismo tiempo, el modelado de fondos en 3D permite manejar el fondo con geometrías complicadas y movimientos no giratorios de la cámara, lo que allana el camino para procesar una variedad más amplia de películas que los enfoques en 2D. Los investigadores llaman a esta técnica OmnimatteRF.
Los resultados experimentales demuestran su sólido rendimiento en una amplia gama de vídeos sin necesidad de modificar parámetros individuales para cada uno. D2NeRF ha producido un conjunto de datos de 5 vídeos renderizados con Kubrics para analizar objetivamente la separación del fondo en entornos 3D. Estos decorados son entornos interiores relativamente ordenados con algunos elementos en movimiento que crean sombras sólidas. Además, el equipo generó cinco videos basados en películas de Blender de código abierto que tienen animaciones y condiciones de iluminación complejas para escenarios más difíciles y realistas. Ambos conjuntos de datos demuestran un rendimiento superior en comparación con investigaciones anteriores.
El modelo de fondo no podrá restaurar con precisión el color de una sección si está siempre en las sombras. Dado que una capa animada tiene un canal alfa, debería ser posible grabar solo la sombra aditiva conservando el color original del fondo. Lamentablemente, la falta de límites claros en torno a esta cuestión en su contexto actual hace que sea difícil encontrar una solución viable.
Revisar la Papel, GitHuby Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.