Reconstruir la geometría 3D a partir de una sola imagen representa una tarea fundamental dentro de los dominios de los gráficos por computadora y la visión por computadora en 3D, como se evidencia en investigaciones anteriores. Esta tarea tiene una gran importancia debido a sus amplias aplicaciones en campos como la realidad virtual, los videojuegos, la generación de contenidos 3D y la precisión de la manipulación robótica. Sin embargo, esta tarea es bastante difícil porque no tiene una solución sencilla y requiere la capacidad de descubrir las formas 3D de los objetos que podemos ver, así como los que están ocultos a la vista.
En este estudio, los autores presentan Wonder3D, un enfoque innovador para la generación eficiente de mallas texturizadas de alta fidelidad a partir de imágenes de vista única. Si bien los métodos recientes, específicamente aquellos que utilizan Score Distillation Sampling (SDS), se han mostrado prometedores en la recuperación de geometría 3D a partir de versiones anteriores de difusión 2D, a menudo sufren de una optimización por forma que requiere mucho tiempo y una geometría inconsistente. Por el contrario, algunas técnicas existentes producen directamente información 3D a través de rápidas inferencias de red, pero sus resultados suelen mostrar baja calidad y carecen de detalles geométricos cruciales.
La imagen de arriba muestra la descripción general de Wonder3D. Dada una sola imagen, Wonder3D toma la imagen de entrada, la incrustación de texto producida por el modelo CLIP, los parámetros de la cámara de múltiples vistas y un conmutador de dominio como condicionamiento para generar mapas normales e imágenes en color de múltiples vistas consistentes. Posteriormente, Wonder3D emplea un innovador algoritmo de fusión normal para reconstruir de manera sólida la geometría 3D de alta calidad a partir de representaciones 2D, produciendo mallas texturizadas de alta fidelidad.
Para mantener la coherencia de este proceso de generación, emplean un mecanismo de atención entre dominios de múltiples vistas, lo que facilita el intercambio de información entre diferentes vistas y modalidades. Además, los autores presentan un algoritmo de fusión normal con reconocimiento de la geometría que extrae superficies de alta calidad de las representaciones 2D de múltiples vistas. A través de evaluaciones exhaustivas, su método demuestra el logro de resultados de reconstrucción de alta calidad, una generalización sólida y una mayor eficiencia en comparación con enfoques anteriores.
Aquí podemos ver los resultados cualitativos de Wonder3D en varios objetos animales. Aunque Wonder3D se ha mostrado prometedor en la creación de formas 3D a partir de imágenes individuales, tiene algunas limitaciones. Una limitación es que actualmente sólo funciona con seis vistas diferentes de un objeto. Esto dificulta la reconstrucción de objetos que son muy delgados o que tienen partes ocultas. Además, si queremos utilizar más vistas, necesitaríamos más potencia informática durante el entrenamiento. Para superar esto, Wonder3D podría utilizar métodos más eficientes para manejar vistas adicionales.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Janhavi Lande, se graduó en Ingeniería Física del IIT Guwahati, promoción de 2023. Es una futura científica de datos y ha estado trabajando en el mundo de la investigación ml/ai durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante exigencia de que los humanos se mantengan al día. En su pasatiempo le gusta viajar, leer y escribir poemas.