Este artículo sobre inteligencia artificial de NVIDIA y UC San Diego revela un nuevo avance en GAN 3D: escalar la representación del volumen neuronal para obtener una geometría más fina e imágenes con visualización consistente

Las redes generativas adversarias (GAN) con reconocimiento 3D han logrado avances notables en la generación de imágenes consistentes con vistas múltiples y geometrías 3D a partir de colecciones de imágenes 2D a través de la representación de volúmenes neuronales. Sin embargo, a pesar de estos avances, ha surgido un desafío importante debido a los importantes costos computacionales y de memoria asociados con el muestreo denso en la renderización de volumen. Esta limitación ha obligado a las GAN 3D a recurrir al entrenamiento basado en parches o al renderizado de baja resolución con superresolución de posprocesamiento, sacrificando la coherencia de múltiples vistas y la calidad de la geometría resuelta.

Los modelos generativos 3D actuales, que emplean campos neuronales y combinaciones de cuadrículas de características con representación de volumen neuronal, enfrentan desafíos de alta memoria y costos computacionales. Los enfoques que utilizan renderizado de baja resolución comprometen la coherencia 3D y la calidad de la geometría, mientras que las representaciones escasas limitan la diversidad de escenas. El entrenamiento basado en parches mejora la calidad de la imagen pero restringe los campos receptivos. Los modelos de difusión recientes abordan tareas condicionales, pero requieren imágenes de múltiples vistas, lo que incurre en gastos computacionales: varias representaciones geométricas, como campos de radiación y superficies implícitas, presentan compensaciones. La aceleración de la representación del volumen neuronal abarca diversos métodos, y nuestra red de propuesta condicional de escena propuesta prioriza la generalización entre escenas.

Un equipo de investigadores de NVIDIA y la Universidad de California en San Diego ha propuesto un método innovador para lograr una representación geométrica de alta fidelidad en GAN 3D. Utilizan parametrización NeRF basada en SDF y emplean muestreadores basados en aprendizaje para acelerar la representación neuronal de alta resolución. El enfoque incorpora una sonda de baja resolución, una red de propuesta CNN de alta resolución y un muestreo sólido para generar imágenes detalladas. Las regularizaciones garantizan una formación estable y una técnica novedosa filtra los archivos PDF previstos para mejorar la estimación de la propuesta. El método demuestra una calidad geométrica 3D de última generación en conjuntos de datos FFHQ y AFHQ, estableciendo un nuevo punto de referencia para el aprendizaje no supervisado de formas 3D en GAN 3D.

Figura 5. Muestras seleccionadas en FFHQ y AFHQ. Su método puede resolver geometría de alta fidelidad (por ejemplo, anteojos) y detalles de grano fino (por ejemplo, barba incipiente y pelo de gato) como se ve en la geometría y el mapa normal.

A pesar de los avances significativos en la generación de geometría 3D, el método propuesto presenta limitaciones, como artefactos potenciales como abolladuras en presencia de especularidades y desafíos en el manejo de objetos transparentes como lentes. La susceptibilidad del método al sesgo frontal y etiquetas inexactas, especialmente en vistas faciales laterales, sugiere mejores estrategias de entrenamiento, potencialmente utilizando datos de Internet a gran escala y técnicas avanzadas de regularización.

El trabajo abre nuevas posibilidades para generar modelos 3D de alta calidad y datos sintéticos que capturen variaciones naturales y permitan nuevas aplicaciones como la síntesis de vistas condicionales. A pesar de los logros encomiables, también se reconocen ciertas limitaciones, como artefactos en escenarios especulares y desafíos con objetos transparentes. El equipo prevé mejoras futuras mediante la incorporación de formulaciones de materiales avanzadas y regularización normal de la superficie. Se recomienda reconocer los sesgos en las vistas laterales faciales, explorar diversos conjuntos de datos de entrenamiento y utilizar métodos de regularización sofisticados.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Este artículo sobre inteligencia artificial de NVIDIA y UC San Diego revela un nuevo avance en GAN 3D: escalar la representación del volumen neuronal para obtener una geometría más fina e imágenes con visualización consistente

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Presentamos Gemma 4 12B

Google lanza Gemini 3.5 Live Translate, un modelo de transmisión de audio de voz a voz que cubre más de 70 idiomas en Meet, Translate y Live API

Las consecuencias de depender de la IA para obtener noticias precisas | Noticias del MIT

You missed

Por qué un resultado detectable de la prueba del VIH puede significar que el virus ya está destruido

Trump se jodió a sí mismo cuando jodió a los votantes latinos

Sueña Torrevieja saluda el ascenso del SC Torrevieja CF y pide una urgente remodelación del Estadio Vicente García – The Leader

Blog de chismes deportivos n.° 1 en el mundo