Investigadores de la Universidad de Aalto ViewFusion: revolucionando la síntesis de vistas con técnicas de eliminación de ruido por difusión adaptativa y ponderación de píxeles

El aprendizaje profundo ha revolucionado la síntesis de vistas en la visión por computadora, ofreciendo diversos enfoques como NeRF y arquitecturas de estilo de un extremo a otro. Tradicionalmente, se empleaban métodos de modelado 3D como vóxeles, nubes de puntos o mallas. Las técnicas basadas en NeRF representan implícitamente escenas 3D utilizando MLP. Los avances recientes se centran en enfoques de imagen a imagen, generando vistas novedosas a partir de colecciones de imágenes de escenas. Estos métodos a menudo requieren un costoso reentrenamiento por escena, información de pose precisa o ayuda con vistas de entrada variables en el momento de la prueba. A pesar de sus fortalezas, cada enfoque tiene limitaciones, lo que subraya los desafíos actuales en este campo.

Investigadores del Departamento de Ciencias de la Computación y Neurociencia e Ingeniería Biomédica de la Universidad de Aalto, Finlandia, System 2 AI y el Centro Finlandés de Inteligencia Artificial FCAI. ha desarrollado. ViewFusion es un método generativo avanzado para la síntesis de vistas. Emplea eliminación de ruido por difusión y ponderación de píxeles para combinar vistas de entrada informativa, abordando limitaciones anteriores. ViewFusion se puede entrenar en diversas escenas, se adapta a diferentes vistas de entrada y genera resultados de alta calidad incluso en condiciones difíciles. Aunque no crea una incrustación de escena 3D y tiene una inferencia más lenta, supera a los métodos existentes en el conjunto de datos de RMN.

La síntesis de vistas ha explorado enfoques, desde NeRF hasta arquitecturas de extremo a extremo y modelos probabilísticos de difusión. Los NeRF optimizan una función de escena volumétrica continua, pero tienen problemas con la generalización y requieren un reentrenamiento significativo para diferentes objetos. Los métodos de un extremo a otro, como Equivariant Neural Renderer y Scene Representation Transformers, ofrecen resultados prometedores, pero carecen de variabilidad en la salida y, a menudo, requieren información de pose explícita. Los modelos probabilísticos de difusión aprovechan los procesos estocásticos para obtener resultados de alta calidad, pero la dependencia de una columna vertebral previamente entrenada y la flexibilidad limitada plantean desafíos. A pesar de sus ventajas, los métodos existentes tienen desventajas como la inflexibilidad y la dependencia de estructuras de datos específicas.

ViewFusion es un enfoque generativo de extremo a extremo para la síntesis de vistas que aplica un paso de eliminación de ruido por difusión a las vistas de entrada y combina gradientes de ruido con una máscara de ponderación de píxeles. El modelo emplea un marco probabilístico de difusión componible para generar vistas a partir de una colección desordenada de vistas de entrada y una dirección de visualización objetivo. El enfoque se evalúa utilizando métricas de uso común como PSNR, SSIM y LPIPS y se compara con métodos de última generación para una síntesis de vistas novedosas. El enfoque propuesto resuelve las limitaciones de los métodos anteriores al ser entrenable y generalizable en múltiples escenas y clases de objetos, adoptando de forma adaptativa un número variable de vistas sin pose y generando vistas plausibles incluso en condiciones severamente indeterminadas.

El enfoque de ViewFusion para visualizar la síntesis logra un rendimiento de primer nivel en métricas clave como PSNR, SSIM y LPIPS. Evaluado en diversos conjuntos de datos de RMN, coincide o supera consistentemente los métodos de última generación actuales. ViewFusion destaca en el manejo de diversos escenarios, incluso en condiciones desafiantes e indeterminadas. Su adaptabilidad brilla a través de su capacidad para incorporar sin problemas una cantidad variable de vistas sin pose durante las etapas de entrenamiento e inferencia, brindando constantemente resultados de alta calidad independientemente del recuento de vistas de entrada. Aprovechando su naturaleza generativa, ViewFusion produce vistas realistas comparables o superiores a las técnicas de vanguardia existentes.

En conclusión, ViewFusion es una solución innovadora para la síntesis de vistas, que cuenta con un rendimiento de última generación en métricas como PSNR, SSIM y LPIPS. Su adaptabilidad y flexibilidad superan los métodos anteriores al adaptarse perfectamente a varias vistas sin pose y generar resultados de alta calidad, incluso en escenarios desafiantes e indeterminados. Al introducir un esquema de ponderación y aprovechar los modelos de difusión componibles, ViewFusion establece un nuevo estándar en el campo. Más allá de su aplicación inmediata, la naturaleza generativa de ViewFusion es prometedora para abordar problemas más amplios, lo que la marca como una contribución significativa con aplicaciones potenciales más allá de la síntesis de vistas novedosas.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🚀 LLMWare lanza SLIM: pequeños modelos de llamada de funciones especializadas para la automatización de varios pasos [Check out all the models]

Investigadores de la Universidad de Aalto ViewFusion: revolucionando la síntesis de vistas con técnicas de eliminación de ruido por difusión adaptativa y ponderación de píxeles

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Resolver el problema de probabilidad de cadenas 3Blue1Brown (sin IA)

Una implementación de codificación en MONAI para la segmentación del bazo en 3D de extremo a extremo utilizando UNet en volúmenes de TC médicos

Cómo crear un espacio de trabajo para agentes de QwenPaw con habilidades personalizadas, proveedores de modelos, acceso a la consola y pruebas de API de transmisión

You missed

El ‘espejo espía’ del telescopio espacial romano Nancy Grace de la NASA podría transformar la forma en que mapeamos el universo

Hoy en la historia de la Corte Suprema: 13 de junio de 1977

“Abrí la puerta y vi el cuerpo de mi vecino y mucho humo. No podíamos salir”

James Harden arrestado y acusado de portar ilegalmente un arma en Houston