NVIDIA y Mistral AI ofrecen una inferencia 10 veces más rápida para la familia Mistral 3 en sistemas de GPU GB200 NVL72

NVIDIA anunció hoy una expansión significativa de su colaboración estratégica con Mistral AI. Esta asociación coincide con el lanzamiento de la nueva familia de modelos abiertos Mistral 3 Frontier, lo que marca un momento crucial en el que la aceleración de hardware y la arquitectura del modelo de código abierto han convergido para redefinir los puntos de referencia de rendimiento.

Esta colaboración supone un gran salto en la velocidad de inferencia: los nuevos modelos ahora funcionan hasta 10 veces más rápido en los sistemas NVIDIA GB200 NVL72 en comparación con los sistemas H200 de la generación anterior. Este avance desbloquea una eficiencia sin precedentes para la IA de nivel empresarial, prometiendo resolver los cuellos de botella de latencia y costos que históricamente han plagado la implementación a gran escala de modelos de razonamiento.

Un salto generacional: 10 veces más rápido en Blackwell

A medida que la demanda empresarial pasa de simples chatbots a agentes de alto razonamiento y contexto prolongado, la eficiencia de la inferencia se ha convertido en el cuello de botella crítico. La colaboración entre NVIDIA y Mistral AI aborda esto de frente optimizando la familia Mistral 3 específicamente para la arquitectura NVIDIA Blackwell.

Cuando los sistemas de IA de producción deben ofrecer una sólida experiencia de usuario (UX) y una escala rentable, el NVIDIA GB200 NVL72 proporciona un rendimiento hasta 10 veces mayor que el H200 de la generación anterior. Esto no es simplemente una ganancia en velocidad bruta; se traduce en una eficiencia energética significativamente mayor. El sistema supera los 5.000.000 de tokens por segundo por megavatio (MW) a tasas de interactividad del usuario de 40 tokens por segundo.

Para los centros de datos que enfrentan limitaciones de energía, esta ganancia de eficiencia es tan crítica como el aumento del rendimiento en sí. Este salto generacional garantiza un menor costo por token al tiempo que mantiene el alto rendimiento requerido para las aplicaciones en tiempo real.

Una nueva familia Mistral 3

El motor que impulsa estas prestaciones es la recién lanzada familia Mistral 3. Este conjunto de modelos ofrece precisión, eficiencia y capacidades de personalización líderes en la industria, cubriendo el espectro desde cargas de trabajo masivas de centros de datos hasta inferencia de dispositivos de borde.

Mistral Large 3: el buque insignia del Ministerio de Educación

En la cima de la jerarquía se encuentra Mistral Large 3, un modelo de mezcla de expertos (MoE) multimodal y multilingüe disperso de última generación.

Parámetros totales: 675 mil millones de parámetros activos: 41 mil millones de ventanas de contexto: 256 mil tokens

Mistral Large 3, entrenado con GPU NVIDIA Hopper, está diseñado para manejar tareas de razonamiento complejas, ofreciendo paridad con los modelos cerrados de primer nivel y conservando la flexibilidad de los pesos abiertos.

Ministral 3: poder denso en el límite

Complementando el modelo grande está la serie Ministral 3, un conjunto de modelos pequeños, densos y de alto rendimiento diseñados para brindar velocidad y versatilidad.

Tamaños: parámetros 3B, 8B y 14B. Variantes: Base, Instruct y Reasoning para cada tamaño (nueve modelos en total). Ventana de contexto: 256.000 tokens en todos los ámbitos.

La serie Ministral 3 sobresale en el punto de referencia GPQA Diamond Accuracy al utilizar 100 tokens menos y al mismo tiempo ofrecer una mayor precisión:

Ingeniería significativa detrás de la velocidad: una pila de optimización integral

La afirmación de rendimiento “10x” está impulsada por una serie integral de optimizaciones desarrolladas conjuntamente por los ingenieros de Mistral y NVIDIA. Los equipos adoptaron un enfoque de “codiseño extremo”, fusionando capacidades de hardware con ajustes de arquitectura del modelo.

TensorRT-LLM Paralelismo amplio experto (Wide-EP)

Para aprovechar al máximo la escala masiva del GB200 NVL72, NVIDIA empleó el Paralelismo Amplio Experto dentro de TensorRT-LLM. Esta tecnología proporciona núcleos MoE GroupGEMM optimizados, distribución experta y equilibrio de carga.

Fundamentalmente, Wide-EP explota el dominio de memoria coherente y la estructura NVLink del NVL72. Es muy resistente a las variaciones arquitectónicas entre los grandes MoE. Por ejemplo, Mistral Large 3 utiliza aproximadamente 128 expertos por capa, aproximadamente la mitad que modelos comparables como DeepSeek-R1. A pesar de esta diferencia, Wide-EP permite que el modelo obtenga los beneficios de alto ancho de banda, baja latencia y no bloqueo de la estructura NVLink, lo que garantiza que el enorme tamaño del modelo no provoque cuellos de botella en la comunicación.

Cuantización NVFP4 nativa

Uno de los avances técnicos más importantes de esta versión es la compatibilidad con NVFP4, un formato de cuantificación nativo de la arquitectura Blackwell.

Para Mistral Large 3, los desarrolladores pueden implementar un punto de control NVFP4 optimizado para computación cuantificado fuera de línea utilizando la biblioteca llm-compressor de código abierto.

Este enfoque reduce los costos de computación y memoria manteniendo estrictamente la precisión. Aprovecha los factores de escala FP8 de mayor precisión de NVFP4 y el escalado de bloques más fino para controlar el error de cuantificación. La receta apunta específicamente a los pesos MoE mientras mantiene otros componentes con la precisión original, lo que permite que el modelo se implemente sin problemas en el GB200 NVL72 con una pérdida mínima de precisión.

Servicio desagregado con NVIDIA Dynamo

Mistral Large 3 utiliza NVIDIA Dynamo, un marco de inferencia distribuida de baja latencia, para desagregar las fases de inferencia de precarga y decodificación.

En las configuraciones tradicionales, la fase de precarga (procesamiento del mensaje de entrada) y la fase de decodificación (generación del resultado) compiten por los recursos. Al hacer coincidir la velocidad y desagregar estas fases, Dynamo aumenta significativamente el rendimiento para cargas de trabajo de contexto largo, como configuraciones de entrada de 8K/salida de 1K. Esto garantiza un alto rendimiento incluso cuando se utiliza la enorme ventana de contexto de 256K del modelo.

De la nube al borde: rendimiento de Ministral 3

Los esfuerzos de optimización se extienden más allá de los enormes centros de datos. Al reconocer la creciente necesidad de IA local, la serie Ministral 3 está diseñada para la implementación en el borde y ofrece flexibilidad para una variedad de necesidades.

Aceleración RTX y Jetson

Los densos modelos Ministral están optimizados para plataformas como la PC NVIDIA GeForce RTX AI y los módulos de robótica NVIDIA Jetson.

RTX 5090: Las variantes Ministral-3B pueden alcanzar velocidades de inferencia vertiginosas de 385 tokens por segundo en la GPU NVIDIA RTX 5090. Esto lleva el rendimiento de IA de una estación de trabajo a las PC locales, lo que permite una iteración rápida y una mayor privacidad de los datos. Jetson Thor: para robótica e IA perimetral, los desarrolladores pueden utilizar el contenedor vLLM en NVIDIA Jetson Thor. El modelo Ministral-3-3B-Instruct logra 52 tokens por segundo para una sola concurrencia, escalando hasta 273 tokens por segundo con una concurrencia de 8.

Amplio soporte de marco

NVIDIA ha colaborado con la comunidad de código abierto para garantizar que estos modelos se puedan utilizar en todas partes.

Llama.cpp y Ollama: NVIDIA colaboró ​​con estos marcos populares para garantizar una iteración más rápida y una menor latencia para el desarrollo local. SGLang: NVIDIA colaboró ​​con SGLang para crear una implementación de Mistral Large 3 que admita tanto la desagregación como la decodificación especulativa. vLLM: NVIDIA trabajó con vLLM para ampliar la compatibilidad con las integraciones del kernel, incluida la decodificación especulativa (EAGLE), la compatibilidad con Blackwell y el paralelismo ampliado.

Listo para producción con NVIDIA NIM

Para agilizar la adopción empresarial, los nuevos modelos estarán disponibles a través de los microservicios NVIDIA NIM.

Mistral Large 3 y Ministral-14B-Instruct están actualmente disponibles a través del catálogo de API de NVIDIA y la API de vista previa. Pronto, los desarrolladores empresariales podrán utilizar los microservicios NIM de NVIDIA descargables. Esto proporciona una solución en contenedores lista para producción que permite a las empresas implementar la familia Mistral 3 con una configuración mínima en cualquier infraestructura acelerada por GPU.

Esta disponibilidad garantiza que la ventaja de rendimiento específica “10x” del GB200 NVL72 se pueda lograr en entornos de producción sin ingeniería personalizada compleja, democratizando el acceso a inteligencia de vanguardia.

Conclusión: un nuevo estándar para la inteligencia abierta

El lanzamiento de la familia de modelos abiertos Mistral 3 acelerada por NVIDIA representa un gran salto para la IA en la comunidad de código abierto. Al ofrecer un rendimiento de nivel fronterizo bajo una licencia de código abierto y respaldarlo con una sólida pila de optimización de hardware, Mistral y NVIDIA se encuentran con los desarrolladores donde están.

Desde la escala masiva del GB200 NVL72 que utiliza Wide-EP y NVFP4, hasta la densidad amigable con los bordes de Ministral en un RTX 5090, esta asociación ofrece un camino escalable y eficiente para la inteligencia artificial. Dado que se espera que próximas optimizaciones como la decodificación especulativa con predicción multitoken (MTP) y EAGLE-3 impulsen aún más el rendimiento, la familia Mistral 3 está preparada para convertirse en un elemento fundamental de la próxima generación de aplicaciones de IA.

¡Disponible para probar!

Si es un desarrollador que busca comparar estas mejoras de rendimiento, puede descargar los modelos Mistral 3 directamente desde Hugging Face o probar las versiones alojadas sin implementación en build.nvidia.com/mistralai para evaluar la latencia y el rendimiento para su caso de uso específico.

Echa un vistazo a los modelos de Hugging Face. Puede encontrar detalles en el Blog corporativo y en el Blog técnico/de desarrolladores.

Gracias al equipo de IA de NVIDIA por el liderazgo intelectual y los recursos para este artículo. El equipo de IA de NVIDIA ha respaldado este contenido/artículo.

Jean-marc es un exitoso ejecutivo de negocios de IA. Lidera y acelera el crecimiento de soluciones impulsadas por IA y fundó una empresa de visión por computadora en 2006. Es un orador reconocido en conferencias de IA y tiene un MBA de Stanford.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.