Nvidia AI Fuentes abiertas Dynamo: una biblioteca de inferencia de código abierto para acelerar y escalar modelos de razonamiento de IA en las fábricas de IA

El rápido avance de la inteligencia artificial (IA) ha llevado al desarrollo de modelos complejos capaces de comprender y generar texto como humano. La implementación de estos grandes modelos de idiomas (LLM) en aplicaciones del mundo real presenta desafíos significativos, particularmente en la optimización del rendimiento y la gestión de recursos computacionales de manera eficiente.

Desafíos en la escala de modelos de razonamiento de IA

A medida que los modelos de IA crecen en complejidad, sus demandas de implementación aumentan, especialmente durante la fase de inferencia, la etapa donde los modelos generan resultados basados ​​en nuevos datos. Los desafíos clave incluyen:

  • Asignación de recursos: Equilibrar cargas computacionales en grupos extensos de GPU para evitar cuellos de botella y subutilización es complejo.
  • Reducción de latencia: Asegurar los tiempos de respuesta rápidos es fundamental para la satisfacción del usuario, lo que requiere procesos de inferencia de baja latencia.
  • Gestión de costos: Los requisitos computacionales sustanciales de los LLM pueden conducir a la creciente costos operativos, lo que hace que las soluciones rentables sean esenciales.

Presentación de Nvidia Dynamo

En respuesta a estos desafíos, Nvidia ha introducido Dinamouna biblioteca de inferencia de código abierto diseñada para acelerar y escalar modelos de razonamiento de IA de manera eficiente y rentable. Como sucesor del NVIDIA Triton Inference Server ™, Dynamo ofrece un marco modular adaptado para entornos distribuidos, lo que permite una escala perfecta de cargas de trabajo de inferencia en grandes flotas de GPU. ​

Innovaciones y beneficios técnicos

Dynamo incorpora varias innovaciones clave que mejoran colectivamente el rendimiento de la inferencia:

  • Servicio desglosado: Este enfoque separa las fases de contexto (prefiesta) y generación (decodificación) de la inferencia de LLM, asignándolas a GPU distintas. Al permitir que cada fase se optimice de forma independiente, el servicio desglosado mejora la utilización de recursos y aumenta el número de solicitudes de inferencia atendidas por GPU. ​
  • Planificador de recursos de GPU: El motor de planificación de Dynamo ajusta dinámicamente la asignación de GPU en respuesta a la demanda fluctuante de los usuarios, evitando el sobrevisión o la subvisión y la garantía de un rendimiento óptimo. ​
  • Router inteligente: Este componente dirige de manera eficiente las solicitudes de inferencia entrantes en grandes flotas de GPU, minimizando las recomputaciones costosas aprovechando el conocimiento de las solicitudes anteriores, conocidas como KV Cache. ​
  • Biblioteca de comunicación de baja latencia (NIXL): NIXL acelera la transferencia de datos entre GPU y a través de diversos tipos de memoria y almacenamiento, reduciendo los tiempos de respuesta de inferencia y simplificando las complejidades del intercambio de datos.
  • Gerente de caché de KV: Al descargar datos de inferencia de menor frecuencia a los que se accede con menos frecuencia a dispositivos de memoria y almacenamiento más rentables, Dynamo reduce los costos generales de inferencia sin afectar la experiencia del usuario. ​

Insights de rendimiento

El impacto de Dynamo en el rendimiento de la inferencia es sustancial. Al servir al modelo de razonamiento Deepseek-R1 671B de código abierto en NVIDIA GB200 NVL72, Dynamo aumentó el rendimiento, medido en tokens por segundo por GPU, por hasta 30 veces. Además, servir al modelo LLAMA 70B en NVIDIA Hopper ™ dio como resultado más de un aumento doble en el rendimiento. ​

Estas mejoras permiten a los proveedores de servicios de IA satisfacer más solicitudes de inferencia por GPU, acelerar los tiempos de respuesta y reducir los costos operativos, maximizando así los rendimientos de sus inversiones de cálculo aceleradas. ​

Conclusión

Nvidia Dynamo representa un avance significativo en el despliegue de modelos de razonamiento de IA, abordando desafíos críticos en la escala, la eficiencia y la rentabilidad. Su naturaleza y compatibilidad de código abierto con los principales backends de inferencia de IA, incluidos Pytorch, Sglang, Nvidia Tensorrt ™ -LLM y VLLM, empoderan empresas, nuevas empresas e investigadores para optimizar el modelo de IA que sirve en entornos de inferencia desglosados. Al aprovechar las características innovadoras de Dynamo, las organizaciones pueden mejorar sus capacidades de IA, brindando servicios de IA más rápidos y eficientes para satisfacer las crecientes demandas de las aplicaciones modernas.


Verificar el Detalle técnico y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.