LightSeek Foundation lanza TokenSpeed, un motor de inferencia LLM de código abierto dirigido al rendimiento de nivel TensorRT-LLM para cargas de trabajo agentes

La eficiencia de la inferencia se ha convertido silenciosamente en uno de los cuellos de botella más importantes en la implementación de la IA. A medida que los sistemas de codificación agentes como Claude Code, Codex y Cursor escalan desde herramientas de desarrollo hasta infraestructura que impulsa el desarrollo de software en general, los motores de inferencia subyacentes que atienden esas solicitudes están bajo una presión cada vez mayor. Los investigadores de la Fundación LightSeek han lanzado TokenSpeed, un motor de inferencia LLM de código abierto publicado bajo la licencia del MIT y diseñado específicamente para las demandas de cargas de trabajo agentes. El motor TokenSpeed ​​se encuentra actualmente en estado de vista previa.

Por qué la inferencia agente es un problema diferente

Para comprender qué hace que las elecciones de diseño de TokenSpeed ​​sean significativas, es útil comprender qué dificulta la inferencia agente. Los agentes codificadores no se comportan como el típico turno de un chatbot. Los contextos habitualmente superan los 50.000 tokens y las conversaciones a menudo abarcan docenas de turnos. Esto crea presión simultánea sobre dos métricas: TPM (tokens por minuto) por GPU, que determina a cuántos usuarios puede atender una sola GPU, y TPS (tokens por segundo) por usuario, que determina si un usuario individual percibe que el sistema responde. La mayoría de los puntos de referencia públicos no captan completamente este comportamiento.

TokenSpeed ​​ha sido diseñado para maximizar ambos. El objetivo es maximizar el TPM por GPU y al mismo tiempo mantener un nivel mínimo de TPS por usuario, normalmente 70 TPS y, a veces, 200 TPS o más.

Arquitectura: cinco subsistemas entrelazados

La arquitectura de TokenSpeed ​​se basa en cinco pilares de diseño: un mecanismo de modelado respaldado por un compilador para el paralelismo, un programador de alto rendimiento, una restricción segura de reutilización de recursos KV, un sistema de kernel en capas conectable que admite aceleradores heterogéneos e integración SMG para un punto de entrada de solicitudes del lado de la CPU con gastos generales bajos.

La capa de modelado utiliza un enfoque SPMD (programa único, datos múltiples) local. SPMD es un modelo de ejecución paralela en el que todos los procesos ejecutan el mismo programa pero en diferentes subconjuntos de datos, un patrón común en el aprendizaje profundo distribuido. En lugar de requerir que los desarrolladores implementen manualmente la lógica de comunicación entre procesos, TokenSpeed ​​les permite especificar anotaciones de ubicación de E/S en los límites de los módulos, y un compilador estático liviano genera automáticamente las operaciones colectivas requeridas durante la construcción del modelo, eliminando la necesidad de implementar manualmente la lógica de comunicación.

El planificador realiza una división estructural entre el plano de control y el plano de ejecución. El plano de control se implementa en C++ como una máquina de estado finito que funciona con el sistema de tipos para imponer una gestión segura de recursos (incluida la transferencia y el uso del estado de la caché KV) en tiempo de compilación en lugar de en tiempo de ejecución. El ciclo de vida de las solicitudes, los recursos de caché de KV y el tiempo de superposición se representan mediante transiciones FSM explícitas y semántica de propiedad, por lo que la corrección se aplica mediante un sistema de control verificable en lugar de una convención. Al codificar estas restricciones de corrección en el sistema de tipos en lugar de dejarlas según la convención de tiempo de ejecución, los errores en la administración de caché KV (una de las áreas más propensas a errores en el servicio LLM) se detectan antes. El plano de ejecución se implementa en Python para mantener la eficiencia del desarrollo, lo que permite una iteración de funciones más rápida y una menor carga cognitiva para los desarrolladores.

La capa del núcleo trata los núcleos de la GPU como un subsistema modular de primera clase en lugar de integrarlos en el núcleo del motor. Proporciona una API pública portátil, un modelo de selección y registro centralizado y un mecanismo de complemento extensible para admitir aceleradores heterogéneos, lo que significa que no está bloqueado al hardware NVIDIA. El equipo de desarrollo también ha desarrollado uno de los kernels MLA (Multi-head Latent Attention) más rápidos para cargas de trabajo agentes en NVIDIA Blackwell. En el kernel de decodificación, q_seqlen y num_heads se agrupan para utilizar completamente Tensor Cores, ya que num_heads son pequeños en algunos de estos casos de uso. El kernel binario precargado incluye una implementación softmax ajustada. En particular, vLLM ha adoptado TokenSpeed ​​MLA.

https://lightseek.org/blog/lightseek-tokenspeed.html

Finalmente, TokenSpeed ​​integra SMG, un componente nativo de PyTorch, para un punto de entrada de solicitudes del lado de la CPU de baja sobrecarga, lo que reduce el costo de transferencia entre la orquestación de la CPU y la ejecución de la GPU.

Resultados comparativos con TensorRT-LLM en NVIDIA B200

Vale la pena señalar desde el principio que estos puntos de referencia cubren únicamente una implementación única (no desagregada). El soporte de desglose de PD aún está en proceso de limpieza y puede cubrirse en un seguimiento dedicado por parte del equipo de TokenSpeed.

Junto con el equipo de EvalScope, TokenSpeed ​​se evaluó con las trazas de SWE-smith, que reflejan fielmente el tráfico del agente de codificación de producción, y se comparó con TensorRT-LLM, el estado actual del arte en NVIDIA Blackwell. El modelo de prueba fue Kimi K2.5.

Para agentes de codificación que se ejecutan por encima de 70 TPS/Usuario, la mejor configuración es Attention TP4 + MoE TP4, donde TokenSpeed ​​domina TensorRT-LLM en toda la frontera de Pareto: aproximadamente un 9 % más rápido en el caso de latencia mínima (tamaño de lote 1) y aproximadamente un 11 % más de rendimiento alrededor de 100 TPS/Usuario. TP4 aquí se refiere al paralelismo tensor entre 4 GPU, una técnica que fragmenta los pesos del modelo en múltiples dispositivos para reducir la presión y la latencia de la memoria por dispositivo.

En el kernel MLA, las ganancias son más pronunciadas en la etapa de decodificación. El núcleo de decodificación pliega el eje de secuencia de consulta en el eje principal para llenar mejor el mosaico BMM1 M, lo que mejora la utilización de Tensor Core. El kernel de precarga de versión binaria utiliza perillas internas de NVIDIA para ajustar la implementación de softmax, superando el MLA de TensorRT-LLM en las cinco cargas de trabajo de precarga típicas para agentes de codificación con caché KV de prefijo largo. Combinado con otras optimizaciones, esto casi reduce a la mitad la latencia en relación con TensorRT-LLM en cargas de trabajo de decodificación típicas con decodificación especulativa en tamaños de lote 4, 8 y 16 con caché KV de prefijo largo.

Conclusiones clave

TokenSpeed ​​es un nuevo motor de inferencia LLM de código abierto y con licencia del MIT de LightSeek Foundation, creado específicamente para cargas de trabajo agentes. (Disponible en modo de vista previa) Su programador utiliza una máquina de estado finito C++ para imponer la seguridad de la caché KV en el momento de la compilación, mientras mantiene el plano de ejecución en Python para mayor usabilidad. En NVIDIA B200, TokenSpeed ​​supera a TensorRT-LLM en ~9 % en latencia mínima y ~11 % en rendimiento a 100 TPS/usuario en Kimi K2.5. El kernel TokenSpeed ​​MLA reduce casi a la mitad la latencia de decodificación en comparación con TensorRT-LLM en cargas de trabajo de decodificación especulativas y ya ha sido adoptado por vLLM.

Consulte los detalles técnicos y el repositorio de GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros