El NeRF convencional y sus variaciones exigen recursos computacionales considerables, que a menudo superan la disponibilidad típica en entornos restringidos. Además, la capacidad limitada de memoria de video de los dispositivos cliente impone restricciones significativas en el procesamiento y la representación de grandes recursos simultáneamente en tiempo real. La considerable demanda de recursos plantea un desafío crucial a la hora de representar escenas extensas en tiempo real, lo que requiere una carga y un procesamiento rápidos de extensos conjuntos de datos.
Para abordar los desafíos encontrados en la representación en tiempo real de escenas extensas, investigadores de la Universidad de Ciencia y Tecnología de China propusieron un método llamado Ciudad en Web. Inspirándose en los métodos gráficos tradicionales utilizados para manejar escenas a gran escala, dividen la escena en bloques manejables e incorporan distintos niveles de detalle (LOD) para representarla.
Se emplean técnicas de horneado de campo Radiance para precalcular y almacenar primitivas de renderizado en texturas de atlas 3D organizadas dentro de una cuadrícula dispersa en cada bloque, lo que facilita el renderizado en tiempo real. Sin embargo, cargar todas las texturas del atlas en un único sombreador no es factible debido a las limitaciones inherentes a los recursos del sombreador. En consecuencia, la escena se representa como una jerarquía de bloques segmentados, cada uno representado por un sombreador dedicado durante el proceso de renderizado.
Empleando una estrategia de “divide y vencerás”, garantizan que cada bloque tenga una amplia capacidad de representación para reconstruir fielmente detalles intrincados dentro de la escena. Además, para mantener una alta fidelidad en la salida renderizada durante la fase de entrenamiento, simulan la combinación de múltiples sombreadores alineados con el proceso de renderizado.
Estas representaciones basadas en bloques y niveles de detalle (LOD) permiten una gestión dinámica de recursos, simplificando el proceso de carga y descarga en tiempo real según la posición y el campo de visión del espectador. Este enfoque de carga adaptable reduce significativamente los requisitos de ancho de banda y memoria para renderizar escenas extensas, lo que genera experiencias de usuario más fluidas, especialmente en dispositivos menos potentes.
Los experimentos realizados ilustran que City-on-Web logra la representación de escenas fotorrealistas a gran escala a 32 fotogramas por segundo (FPS) con una resolución de 1080p, utilizando una GPU RTX 3060. Utiliza solo el 18% de la VRAM y el 16% del tamaño de la carga útil en comparación con los métodos existentes basados en malla.
La combinación de partición de bloques y la integración de niveles de detalle (LOD) ha disminuido notablemente la carga útil en la plataforma web al tiempo que ha mejorado la eficiencia de la gestión de recursos. Este enfoque garantiza una calidad de renderizado de alta fidelidad al mantener la coherencia entre el proceso de capacitación y la fase de renderizado.
Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarribay Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.