Los investigadores de Google introducen LightLab: un método de IA basado en difusión para un control de luz físicamente plausible y de grano fino en imágenes individuales

Manipular las condiciones de iluminación en imágenes posteriores a la captura es un desafío. Los enfoques tradicionales se basan en métodos gráficos 3D que reconstruyen la geometría y las propiedades de la escena de múltiples capturas antes de simular una nueva iluminación utilizando modelos de iluminación física. Aunque estas técnicas proporcionan un control explícito sobre las fuentes de luz, la recuperación de modelos 3D precisos de imágenes individuales sigue siendo un problema que con frecuencia resulta en resultados insatisfactorios. Los métodos modernos de edición de imágenes basados en difusión han surgido como alternativas que utilizan antecedentes estadísticos fuertes para evitar los requisitos de modelado físico. Sin embargo, estos enfoques luchan con un control paramétrico preciso debido a su estocasticidad inherente y dependencia del condicionamiento textual.

Los métodos generativos de edición de imágenes se han adaptado para varias tareas de cambio con resultados mixtos. Los enfoques de alivio de retratos a menudo usan datos de la etapa de luz para supervisar los modelos generativos, mientras que los métodos de rehabilitación de objetos podrían ajustar modelos de difusión utilizando conjuntos de datos sintéticos condicionados en los mapas del entorno. Algunos métodos asumen una sola fuente de luz dominante para escenas al aire libre, como el sol, mientras que las escenas interiores presentan desafíos más complejos de iluminación múltiple. Varios enfoques abordan estos problemas, incluidas las redes de representación inversa y los métodos que manipulan el espacio latente de Stylegan. La investigación de fotografía flash muestra el progreso en la edición de múltiples iluminación a través de técnicas que usan pares Flash/No-Flash para desenredar y manipular los iluminantes de la escena.

Investigadores de Google, la Universidad de Tel Aviv, la Universidad de Reichman y la Universidad Hebrea de Jerusalén han propuesto LightLab, un método basado en difusión que permite un control paramétrico explícito sobre las fuentes de luz en las imágenes. Se dirige a dos propiedades fundamentales de fuentes de luz, intensidad y color. LightLab proporciona control sobre la iluminación ambiental y los efectos de mapeo de tono, creando un conjunto integral de herramientas de edición que permiten a los usuarios manipular la apariencia general de una imagen a través de los ajustes de iluminación. El método muestra efectividad en las imágenes interiores que contienen fuentes de luz visibles, aunque los resultados adicionales son prometedores para escenas al aire libre y ejemplos fuera de dominio. El análisis comparativo confirma que LightLab está pionero en la entrega de un control preciso de alta calidad sobre fuentes de luz locales visibles.

LightLab utiliza un par de imágenes para modelar implícitamente cambios de luz controlados en el espacio de imagen, que luego entrena un modelo de difusión especializado. La recopilación de datos combina fotografías reales con representaciones sintéticas. El conjunto de datos de fotografía consta de 600 pares de imágenes sin procesar capturados con dispositivos móviles en trípodes, y cada par muestra escenas idénticas donde solo se enciende o desactiva una fuente de luz visible. Configuración de exposición automática y calibración posterior a la captura aseguran una exposición adecuada. Un conjunto más grande de imágenes sintéticas se representa a partir de 20 escenas 3D de interior creadas por artistas para aumentar esta colección utilizando la representación basada física en la licuadora. Esta tubería sintética muestra al azar las vistas de la cámara alrededor de los objetos objetivo y se asigna procesalmente parámetros de fuente de luz, incluida la intensidad, la temperatura del color, el tamaño del área y el ángulo de cono.

El análisis comparativo muestra que el uso de una mezcla ponderada de capturas reales y renders sintéticos logra resultados óptimos en todas las configuraciones. La mejora cuantitativa al agregar datos sintéticos a capturas reales es relativamente modesta con solo 2.2% en PSNR, probablemente porque los cambios significativos en la iluminación local se ven eclipsados por detalles de baja frecuencia en toda la imagen en estas métricas. Las comparaciones cualitativas en los conjuntos de datos de evaluación muestran la superioridad de LightLab sobre métodos competitivos como Omnigen, RGB ↔ X, Scribblelight e IC-Light. Estas alternativas a menudo introducen cambios de iluminación no deseados, distorsión del color o inconsistencias geométricas. En contraste, LightLab proporciona un control fiel sobre las fuentes de luz objetivo mientras se genera efectos de iluminación físicamente plausibles en toda la escena.

En conclusión, los investigadores introdujeron LightLab, un avance en la manipulación de la fuente de luz basada en difusión para imágenes. Utilizando principios de linealidad de luz y datos 3D sintéticos, los investigadores crearon imágenes emparejadas de alta calidad que modelan implícitamente cambios de iluminación compleja. A pesar de sus fortalezas, LightLab enfrenta limitaciones del sesgo del conjunto de datos, particularmente con respecto a los tipos de fuente de luz. Esto podría abordarse mediante la integración con métodos de ajuste fino no apareados. Además, si bien el proceso simplista de captura de datos utilizando dispositivos móviles de consumo con calibración de exposición posterior a la captura facilitó la recopilación de conjuntos de datos más fáciles, evita un alivio preciso en unidades físicas absolutas, lo que indica una sala de refinamiento en futuras iteraciones.

Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

🚨 Construye Genai en el que puedas confiar. ⭐️ Parlant es su motor de código abierto para conversaciones de IA controladas, cumplidas y con propósito: ¡Star Parlant en GitHub! (Promocionado)

Los investigadores de Google introducen LightLab: un método de IA basado en difusión para un control de luz físicamente plausible y de grano fino en imágenes individuales

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi Code CLI: un agente de codificación de IA terminal integrado en TypeScript para agentes de próxima generación

Perplexity AI presenta el orquestador de inferencia de servidor local híbrido para computadora personal: enrutamiento automático de tareas en el dispositivo y en la nube

Un tutorial práctico de codificación sobre los modelos de centros de IA de Qualcomm para clasificación, detección de objetos e implementación basada en hardware

You missed

Moonshot AI lanza Kimi Code CLI: un agente de codificación de IA terminal integrado en TypeScript para agentes de próxima generación

Las lunas de Urano pueden ser la clave para encontrar planetas perdidos

¿Suben los precios de la carne? Culpe a DOGE.

El deporte que hizo los Juegos Olímpicos tiene un problema de monopolio