Investigadores de Oxford presentan Splatter Image: un enfoque de IA ultrarrápido basado en salpicaduras gaussianas para la reconstrucción de objetos monoculares en 3D

La reconstrucción 3D de vista única está a la vanguardia de la visión por computadora y presenta un desafío cautivador y un inmenso potencial para diversas aplicaciones. Implica inferir la estructura y apariencia tridimensional de un objeto o escena a partir de una única imagen 2D. Esta capacidad es importante en robótica, realidad aumentada, imágenes médicas y preservación del patrimonio cultural. Superar este desafío ha sido un punto central en el ámbito de la investigación en visión por computadora, lo que ha dado lugar a metodologías y avances innovadores.

A pesar de los notables avances, los desafíos persisten. La estimación precisa de la profundidad, el manejo de oclusiones, la captura de detalles finos y el logro de solidez ante las diferentes condiciones de iluminación y texturas de los objetos siguen siendo obstáculos constantes. Además, generalizar las representaciones aprendidas en diversas categorías de objetos y escenas plantea un desafío para lograr reconstrucciones consistentes y precisas.

Investigadores de la Universidad de Oxford han introducido la técnica de imágenes salpicadas para abordar la dificultad inherente a la visión por computadora de reconstruir formas 3D desde una sola vista. Su enfoque aprovecha Gaussian Splatting como representación 3D fundamental, aprovechando sus capacidades de renderizado rápido y resultados de alta calidad. Este método pronostica una entidad gaussiana 3D para cada píxel dentro de la imagen de entrada, facilitado por una red neuronal de imagen a imagen.

Es importante reconocer que a pesar de la exposición de la red solo a un lado singular del objeto, Splatter Image puede generar una reconstrucción completa de 360 ​​grados utilizando el conocimiento previo obtenido durante la fase de entrenamiento.

Esa información completa que representa la vista completa de 360 ​​grados se codifica dentro de la imagen 2D asignando distintas gaussianas en una vecindad 2D específica a varias secciones del objeto 3D. Además, los hallazgos del investigador revelan que numerosos gaussianos están inactivos en escenarios prácticos ajustando su opacidad a cero. En consecuencia, estos gaussianos inactivos se pueden eliminar mediante métodos de posprocesamiento.

Sorprendentemente, la eficiencia de su modelo permite el entrenamiento en una sola GPU utilizando puntos de referencia estándar para objetos 3D, mientras que otros enfoques a menudo requieren un entrenamiento distribuido en múltiples GPU. Además, amplían las capacidades de Splatter Image para acomodar múltiples vistas como entrada. Esta extensión implica consolidar las mezclas gaussianas pronosticadas desde vistas individuales, alinearlas con una referencia compartida y combinarlas para formar una representación unificada.

A diferencia de estos enfoques, su técnica anticipa una combinación gaussiana 3D en un proceso directo y de avance. En consecuencia, su método sobresale en la inferencia rápida, logrando capacidades de renderizado en tiempo real y al mismo tiempo entregando una calidad de imagen de primer nivel en varias métricas en el ampliamente reconocido punto de referencia de reconstrucción de vista única.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.