La generación de videos con AI está mejorando a un ritmo impresionante. En poco tiempo, hemos pasado de clips borrosos e incoherentes a videos generados con un realismo impresionante. Sin embargo, a pesar de todo este progreso, falta una capacidad crítica: control y ediciones
Mientras generar un video hermoso es una cosa, la capacidad de editar Para cambiar la iluminación de día a noche, intercambiar el material de un objeto de madera a metal, o insertar a la perfección un nuevo elemento en la escena, ha seguido siendo un problema formidable, en gran medida sin resolver. Esta brecha ha sido la barrera clave que evita que la IA se convierta en una herramienta verdaderamente fundamental para cineastas, diseñadores y creadores.
Hasta la introducción de Difusión¡!
En un nuevo artículo innovador, investigadores de Nvidia, Universidad de Toronto, Vector Institute y la Universidad de Illinois Urbana-Champaign han presentado un marco que aborda directamente este desafío. DiffusionRenderer representa un salto revolucionario hacia adelante, yendo más allá de la mera generación para ofrecer una solución unificada para comprender y manipular escenas 3D de un solo video. Cierte efectivamente la brecha entre la generación y la edición, desbloqueando el verdadero potencial creativo del contenido impulsado por la IA.
La antigua forma versus la nueva forma: un cambio de paradigma
Durante décadas, el fotorrealismo ha sido anclado en PBR, una metodología que simula meticulosamente el flujo de luz. Si bien produce resultados impresionantes, es un sistema frágil. PBR depende de manera crítica de tener un plan digital perfecto de una escena: especie de geometría 3D, texturas de material detalladas y mapas de iluminación precisos. El proceso de captura de este plan del mundo real, conocido como representación inversaes notoriamente difícil y propenso a errores. Incluso pequeñas imperfecciones en estos datos pueden causar fallas catastróficas en el renderizado final, un cuello de botella clave que ha limitado el uso de PBR fuera de los entornos de estudio controlados.
Las técnicas de representación neuronales anteriores como los Nerfs, mientras que revolucionarios para crear vistas estáticas, golpean una pared cuando se trata de editar. “Hornean” iluminación y materiales en la escena, haciendo que las modificaciones posteriores a la captura sean casi imposibles.
Difusión Trata el “qué” (las propiedades de la escena) y el “cómo” (la representación) en un marco unificado basado en la misma potente arquitectura de difusión de video que sustenta modelos como la difusión de video estable.
Este método utiliza dos renderistas neurales para procesar el video:
- Renderizador inverso neural: Este modelo actúa como un detective de escenas. Analiza un video de entrada RGB y estima de manera inteligente las propiedades intrínsecas, generando los buffers de datos esenciales (buffers G) que describen la geometría de la escena (normales, profundidad) y materiales (color, rugosidad, metálicos) a nivel de píxeles. Cada atributo se genera en un pase dedicado para habilitar la generación de alta calidad.
- Renderizador delantero neural: Este modelo funciona como el artista. Toma los buffers G del renderizador inverso, los combina con cualquier iluminación deseada (un mapa de entorno) y sintetiza un video fotorrealista. Crucialmente, se ha entrenado para ser robusto, capaz de producir efectos de transporte de luz impresionantes y complejos como sombras suaves e inter-reflexiones, incluso cuando las entradas G de los G de los renderizadores inverso son imperfectos o “ruidosos”.
Esta sinergia autocorrectora es el núcleo del avance. El sistema está diseñado para el desorden del mundo real, donde los datos perfectos son un mito.
La salsa secreta: una nueva estrategia de datos para cerrar la brecha de la realidad
Un modelo inteligente no es nada sin datos inteligentes. Los investigadores detrás Difusión ideó una ingeniosa estrategia de datos de dos puntas para enseñar a su modelo los matices de la física perfecta y la realidad imperfecta.
- Un universo sintético masivo: Primero, construyeron un vasto conjunto de datos sintéticos de alta calidad de 150,000 videos. Utilizando miles de objetos 3D, materiales PBR y mapas de luz HDR, crearon escenas complejas y los renderizaron con un motor perfecto de rastreo de ruta. Esto le dio al modelo de representación inversa un “libro de texto” perfecto para aprender, proporcionándole datos perfectos de verdad en tierra.
- Auto marcando el mundo real: El equipo descubrió que el renderizador inverso, entrenado solo en datos sintéticos, era sorprendentemente bueno para generalizar a videos reales. Lo desataron en un conjunto de datos masivo de 10,510 videos del mundo real (DL3DV10K). El modelo generó automáticamente etiquetas G-buffer para este metraje del mundo real. Esto creó un colosal conjunto de datos de 150,000 muestras de escenas reales con mapas de propiedades intrínsecos correspondientes, aunque imperfectos y intrínsecos.
Al capacitar el renderizador de avance tanto en los datos sintéticos perfectos como en los datos del mundo real marcado automáticamente, el modelo aprendió a cerrar la “brecha de dominio” crítica. Aprendió las reglas del mundo sintético y la apariencia del mundo real. Para manejar las inevitables inexactitudes en los datos marcados automáticamente, el equipo incorporó un módulo Lora (adaptación de bajo rango), una técnica inteligente que permite que el modelo se adapte a los datos reales más ruidosos sin comprometer el conocimiento obtenido del conjunto sintético prístino.
Actuación de última generación
Los resultados hablan por sí mismos. En rigurosas comparaciones cara a cara con los métodos de última generación y neuronales, tanto Difusión De manera constante salió en la cima de todas las tareas evaluadas por un amplio margen:
- Representación hacia adelante: Al generar imágenes a partir de gfers y iluminación, Difusión Su superado significativamente otros métodos neuronales, especialmente en escenas complejas de múltiples objetos donde las entre-reflexiones y las sombras realistas son críticas. La representación neural superó significativamente otros métodos.
- Representación inversa: El modelo demostró ser superior al estimar las propiedades intrínsecas de una escena de un video, logrando una mayor precisión en el albedo, el material y la estimación normal que todas las líneas de base. Se demostró que el uso de un modelo de video (versus un modelo de imagen única) es particularmente efectiva, reduciendo los errores en la predicción metálica y de rugosidad en un 41% y un 20% respectivamente, ya que aprovecha el movimiento para comprender mejor los efectos dependientes de la visión.
- Volver a encender: En la prueba final de la tubería unificada, Difusión producido resultados de reaño cuantitativos y cualitativamente superiores en comparación con los métodos principales como DilightNet y Gaffer neural, generando reflexiones especulares más precisas e iluminación de alta fidelidad.
Que puedes hacer con Difusión: ¡Edición poderosa!
Esta investigación desbloquea un conjunto de aplicaciones de edición prácticas y poderosas que operan desde un solo video cotidiano. El flujo de trabajo es simple: el modelo primero realiza la representación inversa para comprender la escena, el usuario edita las propiedades y el modelo realiza la representación hacia adelante para crear un nuevo video fotorrealista.
- Revención dinámica: Cambie la hora del día, cambie las luces de estudio por una puesta de sol o altere por completo el estado de ánimo de una escena simplemente proporcionando un nuevo mapa de entorno. El marco reorganiza de manera realista el video con todas las sombras y reflexiones correspondientes.
- Edición de material intuitivo: ¿Quieres ver cómo se vería esa silla de cuero en Chrome? ¿O hacer que una estatua metálica parezca estar hecha de piedra rugosa? Los usuarios pueden ajustar directamente el material Guffers G, ajustando la rugosidad, las propiedades metálicas y de color, y el modelo hará los cambios fotorrealistas.
- Inserción de objetos sin costura: Coloque nuevos objetos virtuales en una escena del mundo real. Al agregar las propiedades del nuevo objeto a los buffers G de la escena, el renderizador delantero puede sintetizar un video final donde el objeto está naturalmente integrado, lanzando sombras realistas y recogiendo reflexiones precisas desde su entorno.
Una nueva base para gráficos
Difusión representa un avance definitivo. Al resolver holísticamente la representación inversa y hacia adelante dentro de un marco único, robusto y basado en datos, derriba las barreras de larga data del PBR tradicional. Democratiza la representación fotorrealista, moviéndola del dominio exclusivo de los expertos en VFX con un hardware potente a una herramienta más accesible para creadores, diseñadores y desarrolladores AR/VR.
En una actualización reciente, los autores mejoran aún más la iluminación y la re-iluminación de video al aprovechar Nvidia cosmos y curación de datos mejorada.
Esto demuestra una tendencia de escala prometedora: a medida que el modelo de difusión de video subyacente se vuelve más potente, la calidad de salida mejora, produciendo resultados más nítidos y precisos.
Estas mejoras hacen que la tecnología sea aún más convincente.
El nuevo modelo se lanza bajo Apache 2.0 y la licencia de modelo NVIDIA Open y es disponible aquí
Fuentes:
Gracias al equipo de NVIDIA por el liderazgo/ recursos de pensamiento para este artículo. El equipo de NVIDIA ha apoyado y patrocinado este contenido/artículo.
