GPZ: un compresor con pérdida acelerado de GPU de próxima generación para datos de partículas a gran escala

Las simulaciones basadas en partículas y las aplicaciones de la nube de puntos están impulsando una expansión masiva en el tamaño y la complejidad de los conjuntos de datos científicos y comerciales, a menudo saltando al ámbito de miles de millones o billones de puntos discretos. Reducir, almacenar y analizar de manera eficiente estos datos sin cuello de botella GPU modernos es uno de los grandes desafíos emergentes en campos como cosmología, geología, dinámica molecular e imágenes 3D. Recientemente, un equipo de investigadores de la Universidad Estatal de Florida, la Universidad de Iowa, el Laboratorio Nacional de Argonne, la Universidad de Chicago y varias otras instituciones introdujeron Gpzun compresor perdedor de errores optimizado por GPU que mejora radicalmente el rendimiento, la relación de compresión y la fidelidad de datos para los datos de partículas, lo que supera cinco alternativas de última generación por amplios márgenes.

¿Por qué comprimir los datos de partículas? ¿Y por qué es tan difícil?

Los datos de partículas (o nubes de puntos), a diferencia de las mallas estructuradas, representan sistemas como colecciones irregulares de elementos discretos en el espacio multidimensional. Este formato es esencial para capturar fenómenos físicos complejos, pero tiene baja coherencia espacial y temporal Y casi no hay redundancia, lo que lo convierte en una pesadilla para compresores clásicos sin pérdida o genéricos con pérdida.

Considerar:

La supercomputadora Summit generó una sola instantánea de simulación cosmológica de 70 TB usando GPU NVIDIA V100.
Las nubes de puntos del programa de elevación del USGS 3D del terreno estadounidense exceden 200 TB de almacenamiento.

Los enfoques tradicionales, como la reducción de muestras o el procesamiento sobre la marcha, se alejan hasta el 90% de los datos sin procesar o la reproducibilidad exclusiva a través de la falta de almacenamiento. Además, los compresores genéricos centrados en la malla explotan las correlaciones que simplemente no existen en los datos de partículas, lo que produce relaciones deficientes y rendimiento abismal de la GPU.

GPZ: Arquitectura e innovaciones

GPZ viene equipado con un Tubería GPU paralela de cuatro etapas—Pecialmente diseñado para las peculiaridades de los datos de partículas y las estrictas demandas del hardware moderno masivamente paralelo.

Fuente: https://arxiv.org/abs/2508.10305

Etapas de tubería:

Cuantificación espacial
- Las posiciones de punto flotante de partículas se asignan a ID de segmento entero y compensaciones, respetando los límites de error especificados por el usuario mientras aprovechan las operaciones FP32 rápidas para el máximo rendimiento de la aritmética de GPU.
- Los tamaños de segmento están sintonizados para una ocupación óptima de GPU.
Clasificación espacial
- Dentro de cada bloque (asignado a una urdimbre CUDA), las partículas se clasifican por su ID de segmento para mejorar la codificación posterior sin pérdidas, utilizando operaciones de nivel de urdimbre para evitar una sincronización costosa.
- Balance de nivel de bloque Balance la relación de compresión con huella de memoria compartida para el mejor paralelismo.
Codificación sin pérdidas
- La innovadora redundancia de la tira de codificación y longitud delta paralela de las ID de segmento ordenadas y las compensaciones cuantificadas.
- La codificación del plano de bits elimina cero bits, con todos los pasos muy optimizados para los patrones de acceso a la memoria de GPU.
Compactación
- Los bloques comprimidos se ensamblan de manera eficiente en una salida contigua utilizando una estrategia a nivel de dispositivo de tres pasos que recorta los gastos generales de sincronización y maximiza el rendimiento de la memoria (809 GB/s en RTX 4090, cerca del pico teórico).

La descompresión es las posiciones inversas: extracto, decodificación y reconstrucción dentro de los límites de error, lo que permite el análisis post-hoc de alta fidelidad.

Fuente: https://arxiv.org/abs/2508.10305

Optimizaciones de rendimiento conscientes de hardware

GPZ se distingue con una suite de optimizaciones centradas en hardware:

Memoria Counsescing: Las lecturas y las escrituras están cuidadosamente alineadas con los límites de 4 bytes que maximizan el ancho de banda DRAM (una mejora de hasta 1.6x sobre el acceso estriado).
Registrarse y compartir gestión de memoria: Los algoritmos están diseñados para mantener alta la ocupación. La precisión se cae a FP32 cuando sea posible, y se evita el uso excesivo del registro para evitar derrames.
Programación de calcular: Mapeo por bloque de una guerra, uso explícito de intrínsecos CUDA como las operaciones de FMA y el desenrollado de bucle donde sea beneficioso.
División/Eliminación de Módulo: Reemplazo de operaciones lentas de división/módulo con recíprocos precomputados y máscaras bit a bits cuando sea posible.

Benchmarking: GPZ vs.

GPZ se evaluó en seis conjuntos de datos del mundo real (de cosmología, geología, física de plasma y dinámica molecular), que abarca tres arquitecturas de GPU:

Consumidor: RTX 4090,
Centro de datos: H100 SXM,
Edge: Nvidia L4.

Las líneas de base incluyen:

cuszp2
PFPL
FZ-GPU
cusz
Cusz-I

La mayoría de estas herramientas, optimizadas para mallas científicas genéricas, fallaron o mostraron caídas severas de rendimiento/calidad en conjuntos de datos de partículas de más de 2 GB; GPZ permaneció robusto en todo momento.

Resultados:

Velocidad: GPZ entregó el rendimiento de compresión hasta 8x más alto que el mejor competidor. El rendimiento promedio alcanzó 169 GB/s (L4), 598 GB/s (RTX 4090) y 616 GB/s (H100). Las escalas de descompresión aún más altas.
Relación de compresión: GPZ superó constantemente a todas las líneas de base, lo que produce relaciones hasta un 600% más altas en entornos desafiantes. Incluso cuando los subcampeones se adelantaron ligeramente, GPZ mantuvo una ventaja de velocidad 3x-6x.
Calidad de datos: Los gráficos de la división de velocidad confirmaron la preservación superior de las características científicas (PSNR más altas en tasas de bits más bajas), y la inspección visual (especialmente en vistas de 10x magnificadas) reveló que las reconstrucciones de GPZ eran casi indistinguibles de los originales, mientras que otras compresiones producían artefactos visibles.

Control e implicaciones clave

GPZ establece un nuevo estándar de oro para la reducción de datos de partículas a gran escala en tiempo real en las GPU modernas. Su diseño reconoce los límites fundamentales de los compresores genéricos y ofrece soluciones personalizadas que explotan cada onza de GPU-paralelismo y ajuste de precisión.

Para investigadores y profesionales que trabajan con inmensos conjuntos de datos científicos, GPZ ofrece:

Compresión robusta limitada por error adecuada para análisis in situ y post-hoc
Rendimiento práctico y proporciones en hardware de consumo y clase HPC
Reconstrucción casi perfecta para tareas de análisis, visualización y modelado

A medida que los tamaños de datos continúan escala, soluciones como GPZ definirán cada vez más la próxima era de la informática científica orientada a GPU y la gestión de datos a gran escala.

Mira el Papel aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

GPZ: un compresor con pérdida acelerado de GPU de próxima generación para datos de partículas a gran escala

ByEquipo de 7 minutos

¿Por qué comprimir los datos de partículas? ¿Y por qué es tan difícil?

GPZ: Arquitectura e innovaciones

Etapas de tubería:

Optimizaciones de rendimiento conscientes de hardware

Benchmarking: GPZ vs.

Resultados:

Control e implicaciones clave

By Equipo de 7 minutos

Related Post

RAG sin vectores: cómo PageIndex se recupera mediante razonamiento

Una implementación de codificación en kvcached para memoria caché Elastic KV, servicio Bursty LLM y uso compartido de GPU multimodelo

xAI lanza grok-voice-think-fast-1.0: encabezando el banco de τ-voice con un 67,3%, superando a Gemini, GPT Realtime y más

You missed

Torrevieja licita la primera fase de la remodelación del polígono industrial Casa Grande – The Leader

La jugadora de hockey convertida en fanática exclusiva La modelo Mikayla Demaiter llama la atención con una nueva y espectacular apariencia

Cómo la oscuridad podría salvar a las aves migratorias

Cómo los fundadores hicieron espacio para que un presidente fuera rey al otorgarle el poder de perdonar, vetar y redactar órdenes de servicio.