Tencent Hunyuan lanza HPC-Ops: una biblioteca de operadores de inferencia LLM de alto rendimiento

Tencent Hunyuan tiene HPC-Ops de código abierto, una biblioteca de operadores de grado de producción para dispositivos de arquitectura de inferencia de modelos de lenguaje grandes. HPC-Ops se centra en kernels CUDA de bajo nivel para operadores centrales como Attention, Grouped GEMM y Fused MoE, y los expone a través de una API compacta en C y Python para su integración en pilas de inferencia existentes.

HPC-Ops se ejecuta en servicios internos a gran escala. En esas implementaciones, ofrece una mejora de aproximadamente el 30 por ciento de consultas por minuto para los modelos Tencent-HY y una mejora de aproximadamente el 17 por ciento para los modelos DeepSeek en tarjetas de inferencia convencionales. Estas ganancias se informan a nivel de servicio, por lo que reflejan el efecto acumulativo de núcleos más rápidos dentro de un proceso de inferencia real.

Alcance y diseño de HPC-Ops

HPC-Ops es una biblioteca de operadores de grado de producción, alto rendimiento y fácil de usar para inferencia LLM, desarrollada por el equipo de Tencent Hunyuan AI Infra. El proyecto no intenta reemplazar los marcos de servicio. En su lugar, proporciona núcleos y API limpias a las que se puede llamar desde sistemas que ya manejan la programación, la administración de caché KV, el procesamiento por lotes y el transporte.

La API está diseñada para un uso fluido dentro de marcos de inferencia populares como vLLM y SGLang. Eso significa que el equipo del marco puede intercambiar kernels HPC-Ops detrás de sus propias abstracciones sin cambiar el comportamiento externo de sus servidores.

HPC-Ops utiliza C++ y CUDA con CuTe y CUTLASS como componentes básicos. Los kernels están escritos como ejemplos relativamente pequeños que también sirven como un tutorial CUDA moderno.

Características de rendimiento del núcleo

El proyecto publica las cifras máximas de aceleración observadas para cada operador en relación con las líneas de base establecidas. Estos son micropuntos de referencia, y el equipo de investigación enfatiza que el rendimiento varía según las formas y las cargas de trabajo, pero muestran el límite de optimización.

Para Atención en bf16, en comparación con FlashInfer, FlashAttention dos, FlashAttention tres y TensorRT LLM, HPC Ops informa una aceleración de hasta 1,33 veces en precarga y hasta 2,22 veces en decodificación. Para Atención en fp8, en comparación con FlashInfer, FlashAttention tres y TensorRT LLM, informa hasta 1,12 veces en prerrelleno y hasta 2,0 veces en decodificación.

Para FusedMoE fp8, en comparación con TensorRT LLM y vLLM, la velocidad máxima observada es de hasta 1,49 veces en precarga y 1,14 veces en decodificación. Para GroupGEMM fp8, en comparación con DeepGEMM, las ganancias reportadas son hasta 1,1 veces en precarga y 1,88 veces en decodificación.

Estos números son importantes porque la decodificación suele ser el cuello de botella de latencia en la generación autorregresiva, donde los tamaños de lote se reducen y el tráfico de memoria domina. El hecho de que Attention y GroupGEMM muestren las mayores ganancias relativas en decodificación sugiere que HPC-Ops se centra en la parte del proceso que la mayoría de los usuarios notan.

Núcleos soportados y precisión

La versión actual agrupa su funcionalidad en tres familias de operadores:

Los núcleos de atención cubren tanto el prellenado como la decodificación e incluyen soporte para atención paginada. La atención paginada es el diseño de la memoria que marcos como vLLM utilizan para colocar bloques de caché de claves y valores en una estructura paginada, lo que mejora la reutilización de la memoria para secuencias largas. GEMM agrupado se implementa como GroupGEMM cuantificado con pesos fp8. HPC-Ops admite el escalado por bloques y por tensor, por lo que los equipos pueden compensar la granularidad de cuantificación con el almacenamiento de parámetros y el costo de calibración. Fused-MoE combina una combinación de enrutamiento experto y computación experta en un único operador cuantificado. También utiliza pesos expertos de FP8 y admite estrategias de escalado por bloques y por tensor.

En estos núcleos, HPC-Ops proporciona soporte nativo para los tipos de datos bf16 y fp8. Esto coincide con la tendencia de producción actual de mover la inferencia hacia formatos de menor precisión que preservan la precisión al tiempo que reducen el ancho de banda de la memoria y mejoran la utilización del núcleo tensorial.

Conclusiones clave

HPC-Ops de código abierto de Tencent Hunyuan como biblioteca de operadores de nivel de producción para inferencia LLM en GPU NVIDIA SM90, incluida H20, con núcleos C++ y CUDA integrados en CuTe y CUTLASS. En implementaciones de producción, HPC-Ops informa una ganancia de QPM de aproximadamente un 30 por ciento para los modelos Tencent-HY y una ganancia de QPM de aproximadamente un 17 por ciento para los modelos DeepSeek en tarjetas de inferencia convencionales. Los microbenchmarks del operador muestran aceleraciones máximas de hasta 2,22 veces para la decodificación de atención bf16, hasta 2,0 veces para la decodificación de atención fp8, hasta 1,49 veces para el precarga de FusedMoE de fp8 y hasta 1,88 veces para la decodificación de GroupGEMM de fp8 en comparación con líneas de base sólidas como FlashInfer, FlashAttention, TensorRT LLM y DeepGEMM. La biblioteca se centra en tres familias de operadores: Atención con soporte de atención paginada, GroupGEMM cuantificado con pesos fp8 y MoE fusionado cuantificado con pesos expertos fp8, con escalado por bloques y por tensor, y soporte de precisión nativo bf16 más fp8. HPC-Ops está diseñado como una capa de operador que se integra en marcos de inferencia existentes como vLLM y SGLang, y la hoja de ruta apunta a una atención escasa para LLM de contexto largo, cuantificación extendida que incluye estrategias de 4 y 8 bits, y núcleos que superponen mejor el cálculo con la comunicación de múltiples GPU.

Consulte el repositorio aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

Tencent Hunyuan lanza HPC-Ops: una biblioteca de operadores de inferencia LLM de alto rendimiento

ByEquipo de 7 minutos

Alcance y diseño de HPC-Ops

Características de rendimiento del núcleo

Núcleos soportados y precisión

Conclusiones clave

By Equipo de 7 minutos

Related Post

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

Una implementación del kit de herramientas de gobernanza de agentes de Microsoft para el uso seguro de herramientas de agentes de IA con políticas, aprobaciones, registros de auditoría y controles de riesgos

StepFun lanza el paso 3.7 Flash: un modelo de lenguaje de visión MoE de 198 mil millones para agentes de codificación y flujos de trabajo de búsqueda

You missed

‘Un revés bastante significativo’: cómo la explosión del cohete de Blue Origin afecta los planes lunares de la NASA

Platner niega informes sobre textos sexualmente explícitos

Oferta pública de adquisición de EasyJet: explicación del enfoque de £ 3 mil millones de Castlelake

España enviará 130.000 cartas de advertencia a los contribuyentes