Un sistema para generar nubes de puntos 3D a partir de indicaciones complejas

Si bien trabajos recientes sobre generación de objetos 3D condicionales de texto han mostrado resultados prometedores, los métodos de última generación suelen requerir varias horas de GPU para producir una sola muestra. Esto contrasta marcadamente con los modelos de imágenes generativos más modernos, que producen muestras en cuestión de segundos o minutos. En este artículo, exploramos un método alternativo para la generación de objetos 3D que produce modelos 3D en sólo 1 o 2 minutos en una sola GPU. Nuestro método primero genera una vista sintética única utilizando un modelo de difusión de texto a imagen y luego produce una nube de puntos 3D utilizando un segundo modelo de difusión que condiciona la imagen generada. Si bien nuestro método aún no está a la altura de los últimos avances en términos de calidad de la muestra, es uno o dos órdenes de magnitud más rápido para tomar muestras, lo que ofrece una compensación práctica para algunos casos de uso. Lanzamos nuestros modelos de difusión de nubes de puntos previamente entrenados, así como códigos y modelos de evaluación, en esta URL https.