Nvidia AI Research presenta el enfoque ‘Alinee sus gaussianos’ para la síntesis expresiva de texto a 4D

ByEquipo de 7 minutos

Dec 28, 2023 #Alinee, #enfoque, #expresiva, #gaussianos, #NVIDIA, #para, #presenta, #Research, #síntesis, #sus, #texto

Nvidia AI Research presenta el enfoque ‘Alinee sus gaussianos’ para la síntesis expresiva de texto a 4D

La creación de escenas 3D dinámicas a través del modelado generativo es muy prometedora para transformar la forma en que desarrollamos juegos, películas, simulaciones, animaciones y entornos virtuales. Aunque las técnicas de destilación de partituras son competentes para generar diversos objetos 3D, a menudo se centran en escenas estáticas, pasando por alto la naturaleza dinámica de las experiencias del mundo real. A diferencia de los modelos de difusión de imágenes, que se han adaptado con éxito para la generación de vídeo, es necesario realizar más investigaciones para ampliar la síntesis 3D para abarcar la generación 4D, incorporando una dimensión temporal adicional para capturar la esencia del movimiento y el cambio en el entorno.

Un equipo de investigadores de NVIDIA, Vector Institute, Universidad de Toronto y MIT han propuesto Align Your Gaussians (AYG), que utiliza dinámica 3D Gaussian Splatting con campos de deformación como una representación 4D. AYG introduce un enfoque para regular la distribución de gaussianos 3D en movimiento, mejorando la estabilidad de la optimización e induciendo un movimiento realista. El método incluye un mecanismo de amplificación de movimiento y un innovador esquema de síntesis autorregresiva para generar y combinar múltiples secuencias 4D, lo que permite una generación de escenas más largas y realistas. Estas técnicas facilitan la síntesis de escenas vibrantes y dinámicas, logrando un rendimiento de texto a 4D de vanguardia. La representación 4D gaussiana permite una combinación perfecta de diferentes animaciones 4D.

3D Gaussian Splatting representa escenas 3D con N gaussianos 3D, incluidas posiciones, covarianzas, opacidades y colores. Los modelos generativos (DM) basados en difusión se utilizan para la generación de objetos 3D basada en destilación de puntuaciones, como campos de radiación neuronal (NeRF) o gaussianos 3D. Se utilizan un modelo de difusión multivista guiado por texto y un modelo normal de texto a imagen para sintetizar una escena 3D estática. Los investigadores realizaron evaluaciones en humanos y estudios de usuarios para evaluar la calidad de las escenas 4D generadas, comparándolas con MAV3D y realizando estudios de ablación.

AYG es un método para la síntesis de texto a 4D utilizando gaussianos 3D dinámicos y modelos de difusión compuestos. Los investigadores utilizan una diligente representación de escena 4D, donde se componen múltiples objetos dinámicos 4D dentro de una gran escena dinámica. AYG incorpora una etapa 4D principal que implica la actualización del campo de deformación utilizando un enfoque basado en gradientes. Las indicaciones generan escenas 4D específicas, como “Un bulldog corre rápido” y “Un panda está boxeando y golpeando”. Los investigadores también mencionan el uso de un modelo de difusión de video latente recientemente entrenado para generar muestras de video 2D con diferentes condicionamientos de fps.

El estudio muestra muestras de escenas 4D dinámicas adicionales generadas a partir de AYG, lo que demuestra la eficacia de su enfoque. Los investigadores remiten a los lectores a su vídeo complementario, que muestra casi todas sus muestras de escenas 4D activas. El modelo de difusión de video latente recientemente entrenado por AYG se utiliza para generar videos para este trabajo, destacando aún más las capacidades de su método. Las capacidades de generación dinámica de escenas de AYG se pueden utilizar en la generación de datos sintéticos, lo que permite la creación de conjuntos de datos de entrenamiento diversos y realistas para diversas aplicaciones.

En conclusión, AYG, una tecnología avanzada para la síntesis expresiva de texto a 4D, aprovecha el Splatting gaussiano 3D dinámico con campos de deformación e incorpora la destilación de partituras a través de múltiples modelos de difusión compuestos. Sus innovadoras técnicas de regularización y orientación han permitido resultados de vanguardia en la generación dinámica de escenas. AYG se destaca por su capacidad para demostrar síntesis 4D temporalmente extendida y componer múltiples objetos dinámicos dentro de una escena más grande. La tecnología tiene diversas aplicaciones en la creación de contenidos creativos y la generación de datos sintéticos. Por ejemplo, AYG facilita la síntesis de vídeos y secuencias 4D con etiquetas de seguimiento precisas, lo que resulta beneficioso para entrenar modelos discriminativos.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🚀 Aumente su presencia en LinkedIn con Taplio: creación de contenido impulsada por IA, programación sencilla, análisis en profundidad y networking con los mejores creadores. ¡Pruébelo gratis ahora!