Tencent Hunyuan tiene HPC-Ops de código abierto, una biblioteca de operadores de grado de producción para dispositivos de arquitectura de inferencia de modelos de lenguaje grandes. HPC-Ops se centra en kernels CUDA de bajo nivel para operadores centrales como Attention, Grouped GEMM y Fused MoE, y los expone a través de una API compacta en C y Python para su integración en pilas de inferencia existentes.
HPC-Ops se ejecuta en servicios internos a gran escala. En esas implementaciones, ofrece una mejora de aproximadamente el 30 por ciento de consultas por minuto para los modelos Tencent-HY y una mejora de aproximadamente el 17 por ciento para los modelos DeepSeek en tarjetas de inferencia convencionales. Estas ganancias se informan a nivel de servicio, por lo que reflejan el efecto acumulativo de núcleos más rápidos dentro de un proceso de inferencia real.
Alcance y diseño de HPC-Ops
HPC-Ops es una biblioteca de operadores de grado de producción, alto rendimiento y fácil de usar para inferencia LLM, desarrollada por el equipo de Tencent Hunyuan AI Infra. El proyecto no intenta reemplazar los marcos de servicio. En su lugar, proporciona núcleos y API limpias a las que se puede llamar desde sistemas que ya manejan la programación, la administración de caché KV, el procesamiento por lotes y el transporte.
La API está diseñada para un uso fluido dentro de marcos de inferencia populares como vLLM y SGLang. Eso significa que el equipo del marco puede intercambiar kernels HPC-Ops detrás de sus propias abstracciones sin cambiar el comportamiento externo de sus servidores.
HPC-Ops utiliza C++ y CUDA con CuTe y CUTLASS como componentes básicos. Los kernels están escritos como ejemplos relativamente pequeños que también sirven como un tutorial CUDA moderno.
Características de rendimiento del núcleo
El proyecto publica las cifras máximas de aceleración observadas para cada operador en relación con las líneas de base establecidas. Estos son micropuntos de referencia, y el equipo de investigación enfatiza que el rendimiento varía según las formas y las cargas de trabajo, pero muestran el límite de optimización.
Para Atención en bf16, en comparación con FlashInfer, FlashAttention dos, FlashAttention tres y TensorRT LLM, HPC Ops informa una aceleración de hasta 1,33 veces en precarga y hasta 2,22 veces en decodificación. Para Atención en fp8, en comparación con FlashInfer, FlashAttention tres y TensorRT LLM, informa hasta 1,12 veces en prerrelleno y hasta 2,0 veces en decodificación.
Para FusedMoE fp8, en comparación con TensorRT LLM y vLLM, la velocidad máxima observada es de hasta 1,49 veces en precarga y 1,14 veces en decodificación. Para GroupGEMM fp8, en comparación con DeepGEMM, las ganancias reportadas son hasta 1,1 veces en precarga y 1,88 veces en decodificación.
Estos números son importantes porque la decodificación suele ser el cuello de botella de latencia en la generación autorregresiva, donde los tamaños de lote se reducen y el tráfico de memoria domina. El hecho de que Attention y GroupGEMM muestren las mayores ganancias relativas en decodificación sugiere que HPC-Ops se centra en la parte del proceso que la mayoría de los usuarios notan.
Núcleos soportados y precisión
La versión actual agrupa su funcionalidad en tres familias de operadores:
Los núcleos de atención cubren tanto el prellenado como la decodificación e incluyen soporte para atención paginada. La atención paginada es el diseño de la memoria que marcos como vLLM utilizan para colocar bloques de caché de claves y valores en una estructura paginada, lo que mejora la reutilización de la memoria para secuencias largas. GEMM agrupado se implementa como GroupGEMM cuantificado con pesos fp8. HPC-Ops admite el escalado por bloques y por tensor, por lo que los equipos pueden compensar la granularidad de cuantificación con el almacenamiento de parámetros y el costo de calibración. Fused-MoE combina una combinación de enrutamiento experto y computación experta en un único operador cuantificado. También utiliza pesos expertos de FP8 y admite estrategias de escalado por bloques y por tensor.
En estos núcleos, HPC-Ops proporciona soporte nativo para los tipos de datos bf16 y fp8. Esto coincide con la tendencia de producción actual de mover la inferencia hacia formatos de menor precisión que preservan la precisión al tiempo que reducen el ancho de banda de la memoria y mejoran la utilización del núcleo tensorial.
Conclusiones clave
HPC-Ops de código abierto de Tencent Hunyuan como biblioteca de operadores de nivel de producción para inferencia LLM en GPU NVIDIA SM90, incluida H20, con núcleos C++ y CUDA integrados en CuTe y CUTLASS. En implementaciones de producción, HPC-Ops informa una ganancia de QPM de aproximadamente un 30 por ciento para los modelos Tencent-HY y una ganancia de QPM de aproximadamente un 17 por ciento para los modelos DeepSeek en tarjetas de inferencia convencionales. Los microbenchmarks del operador muestran aceleraciones máximas de hasta 2,22 veces para la decodificación de atención bf16, hasta 2,0 veces para la decodificación de atención fp8, hasta 1,49 veces para el precarga de FusedMoE de fp8 y hasta 1,88 veces para la decodificación de GroupGEMM de fp8 en comparación con líneas de base sólidas como FlashInfer, FlashAttention, TensorRT LLM y DeepGEMM. La biblioteca se centra en tres familias de operadores: Atención con soporte de atención paginada, GroupGEMM cuantificado con pesos fp8 y MoE fusionado cuantificado con pesos expertos fp8, con escalado por bloques y por tensor, y soporte de precisión nativo bf16 más fp8. HPC-Ops está diseñado como una capa de operador que se integra en marcos de inferencia existentes como vLLM y SGLang, y la hoja de ruta apunta a una atención escasa para LLM de contexto largo, cuantificación extendida que incluye estrategias de 4 y 8 bits, y núcleos que superponen mejor el cálculo con la comunicación de múltiples GPU.
Consulte el repositorio aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.