Investigadores de UT Austin y Meta desarrollaron SteinDreamer: un gran avance en la síntesis de activos de texto a 3D utilizando la destilación de puntuación de Stein para una calidad visual superior y una convergencia acelerada

Los avances recientes en la generación de texto a imagen impulsados por modelos de difusión han despertado el interés en la generación 3D guiada por texto, con el objetivo de automatizar la creación de activos 3D para realidad virtual, películas y juegos. Sin embargo, surgen desafíos en la síntesis 3D debido a la escasez de datos de alta calidad y la complejidad del modelado generativo con representaciones 3D. Han surgido técnicas de destilación de puntuaciones para abordar la falta de datos 3D, utilizando un modelo de difusión 2D. Sin embargo, los problemas reconocidos incluyen gradientes ruidosos e inestabilidad derivados de la incertidumbre en la eliminación de ruido y tamaños de lotes pequeños, lo que resulta en una convergencia lenta y soluciones subóptimas.

Investigadores de la Universidad de Texas en Austin y Meta Reality Labs han desarrollado SteinDreamer, que integra la Stein Score Distillation (SSD) propuesta en un proceso de generación de texto a 3D. SteinDreamer aborda constantemente los problemas de variación en el proceso de destilación de partituras. En generación de objetos y escenas 3D, SteinDreamer supera a DreamFusion y ProlificDreamer, ofreciendo texturas detalladas y geometrías precisas y mitigando Janus y artefactos fantasmales. La variación reducida de SteinDreamer acelera la convergencia de la generación 3D, lo que resulta en menos iteraciones.

Los avances recientes en la generación de texto a imagen, impulsados por modelos de difusión, han despertado el interés en la generación 3D guiada por texto, con el objetivo de automatizar y acelerar la creación de activos 3D en realidad virtual, películas y juegos. El estudio menciona la destilación de puntuaciones, un enfoque predominante para la síntesis de activos de texto a 3D, y destaca la alta variación de este método en la estimación de gradientes. El estudio también menciona los trabajos fundamentales SDS de DreamFusion y VSD de ProlificDreamer, que se comparan en los experimentos con el SteinDreamer propuesto. VSD es otra variante de la destilación de partituras introducida por ProlificDreamer, que minimiza la divergencia KL entre la distribución de la imagen renderizada a partir de una representación 3D y la distribución anterior.

La técnica SSD incorpora variables de control construidas por la identidad de Stein para reducir la variación en la destilación de puntajes para la síntesis de activos de texto a 3D. El SSD propuesto permite incluir antecedentes de orientación flexibles y arquitecturas de red para optimizar explícitamente la reducción de la variación. La canalización general se implementa creando una instancia de la variable de control con un estimador de profundidad monocular. La eficacia de SSD para reducir la variación de destilación y mejorar la calidad visual se demuestra a través de experimentos en la generación de texto a 3D tanto a nivel de objeto como de escena.

El SteinDreamer propuesto, que incorpora la técnica SSD, mejora constantemente la calidad visual para la generación de objetos y escenas en la síntesis de activos de texto a 3D. SteinDreamer logra una convergencia más rápida que los métodos existentes debido a actualizaciones de gradiente más estables. Los resultados cualitativos muestran que SteinDreamer genera vistas con menos artefactos de sobresaturación y suavizado que SDS. En escenarios desafiantes para la generación de escenas, SteinDreamer produce resultados más nítidos con mejores detalles que SDS y VSD. Los experimentos demuestran que SSD reduce efectivamente la variación de destilación, mejorando la calidad visual en la generación de objetos y escenas.

En conclusión, el estudio presenta SteinDreamer, una solución más general para reducir la variación en la destilación de puntuaciones para la síntesis de activos de texto a 3D. Basada en la identidad de Stein, la técnica SSD propuesta reduce efectivamente la variación de destilación y mejora consistentemente la calidad visual tanto para las generaciones de generación de objetos como de escenas. SSD incorpora variables de control construidas por la identidad de Stein, lo que permite pautas flexibles y arquitecturas de red para optimizar la reducción de variaciones. SteinDreamer logra una convergencia más rápida que los métodos existentes debido a actualizaciones de gradiente más estables. La evidencia empírica muestra que VSD supera consistentemente a SDS, lo que indica que la varianza de su estimación numérica difiere significativamente. SSD, implementado en SteinDreamer, produce resultados con texturas más ricas y una variación de nivel más baja que SDS.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

⬆️ Únase a nuestro SubReddit de 35k+ ML

Investigadores de UT Austin y Meta desarrollaron SteinDreamer: un gran avance en la síntesis de activos de texto a 3D utilizando la destilación de puntuación de Stein para una calidad visual superior y una convergencia acelerada

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Amazon SageMaker AI Async Inference ahora admite cargas útiles de solicitudes en línea

Google Cloud presenta el formato de conocimiento abierto (OKF): una especificación de descuento neutral para el proveedor para brindar a los agentes de IA un contexto seleccionado

En la teoría de juegos, los generalistas a veces ganan a los especialistas | Noticias del MIT

You missed

Amazon SageMaker AI Async Inference ahora admite cargas útiles de solicitudes en línea

La píldora anticonceptiva puede aumentar el riesgo de atracones, pero el autocontrol podría ayudar a reducir el comportamiento

La red de iluminación del aeropuerto de Murcia sufre un importante robo de cobre – El Líder

Lil Nas X comparte actualización de salud mental después del arresto en agosto pasado