Este artículo sobre inteligencia artificial de NVIDIA y UC San Diego revela un nuevo avance en GAN 3D: escalar la representación del volumen neuronal para obtener una geometría más fina e imágenes con visualización consistente

Las redes generativas adversarias (GAN) con reconocimiento 3D han logrado avances notables en la generación de imágenes consistentes con vistas múltiples y geometrías 3D a partir de colecciones de imágenes 2D a través de la representación de volúmenes neuronales. Sin embargo, a pesar de estos avances, ha surgido un desafío importante debido a los importantes costos computacionales y de memoria asociados con el muestreo denso en la renderización de volumen. Esta limitación ha obligado a las GAN 3D a recurrir al entrenamiento basado en parches o al renderizado de baja resolución con superresolución de posprocesamiento, sacrificando la coherencia de múltiples vistas y la calidad de la geometría resuelta.

Los modelos generativos 3D actuales, que emplean campos neuronales y combinaciones de cuadrículas de características con representación de volumen neuronal, enfrentan desafíos de alta memoria y costos computacionales. Los enfoques que utilizan renderizado de baja resolución comprometen la coherencia 3D y la calidad de la geometría, mientras que las representaciones escasas limitan la diversidad de escenas. El entrenamiento basado en parches mejora la calidad de la imagen pero restringe los campos receptivos. Los modelos de difusión recientes abordan tareas condicionales, pero requieren imágenes de múltiples vistas, lo que incurre en gastos computacionales: varias representaciones geométricas, como campos de radiación y superficies implícitas, presentan compensaciones. La aceleración de la representación del volumen neuronal abarca diversos métodos, y nuestra red de propuesta condicional de escena propuesta prioriza la generalización entre escenas.

Un equipo de investigadores de NVIDIA y la Universidad de California en San Diego ha propuesto un método innovador para lograr una representación geométrica de alta fidelidad en GAN 3D. Utilizan parametrización NeRF basada en SDF y emplean muestreadores basados ​​en aprendizaje para acelerar la representación neuronal de alta resolución. El enfoque incorpora una sonda de baja resolución, una red de propuesta CNN de alta resolución y un muestreo sólido para generar imágenes detalladas. Las regularizaciones garantizan una formación estable y una técnica novedosa filtra los archivos PDF previstos para mejorar la estimación de la propuesta. El método demuestra una calidad geométrica 3D de última generación en conjuntos de datos FFHQ y AFHQ, estableciendo un nuevo punto de referencia para el aprendizaje no supervisado de formas 3D en GAN 3D.

Figura 5. Muestras seleccionadas en FFHQ y AFHQ. Su método puede resolver geometría de alta fidelidad (por ejemplo, anteojos) y detalles de grano fino (por ejemplo, barba incipiente y pelo de gato) como se ve en la geometría y el mapa normal.

A pesar de los avances significativos en la generación de geometría 3D, el método propuesto presenta limitaciones, como artefactos potenciales como abolladuras en presencia de especularidades y desafíos en el manejo de objetos transparentes como lentes. La susceptibilidad del método al sesgo frontal y etiquetas inexactas, especialmente en vistas faciales laterales, sugiere mejores estrategias de entrenamiento, potencialmente utilizando datos de Internet a gran escala y técnicas avanzadas de regularización.

El trabajo abre nuevas posibilidades para generar modelos 3D de alta calidad y datos sintéticos que capturen variaciones naturales y permitan nuevas aplicaciones como la síntesis de vistas condicionales. A pesar de los logros encomiables, también se reconocen ciertas limitaciones, como artefactos en escenarios especulares y desafíos con objetos transparentes. El equipo prevé mejoras futuras mediante la incorporación de formulaciones de materiales avanzadas y regularización normal de la superficie. Se recomienda reconocer los sesgos en las vistas laterales faciales, explorar diversos conjuntos de datos de entrenamiento y utilizar métodos de regularización sofisticados.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.