Mistral AI lanza Mistral Small 4: un modelo MoE de parámetros 119B que unifica cargas de trabajo multimodales, de instrucción y de razonamiento

Mistral AI ha lanzado Mistral Small 4, un nuevo modelo de la familia Mistral Small diseñado para consolidar varias capacidades previamente separadas en un único objetivo de despliegue. El equipo de Mistral describe Small 4 como su primer modelo que combina los roles asociados con Mistral Small para seguir instrucciones, Magistral para razonamiento, Pixtral para comprensión multimodal y Devstral para codificación agente. El resultado es un modelo único que puede funcionar como asistente general, modelo de razonamiento y sistema multimodal sin necesidad de cambiar de modelo entre flujos de trabajo.

Arquitectura: 128 expertos, activación escasa

Desde el punto de vista arquitectónico, Mistral Small 4 es un modelo de mezcla de expertos (MoE) con 128 expertos y 4 expertos activos por token. El modelo tiene 119 mil millones de parámetros totales, con 6 mil millones de parámetros activos por token, u 8 mil millones incluyendo las capas de incrustación y salida.

Contexto largo y soporte multimodal

El modelo admite una ventana de contexto de 256k, lo que supone un salto significativo para casos prácticos de uso de ingeniería. La capacidad de contexto largo importa menos como cifra de marketing y más como simplificador operativo: reduce la necesidad de fragmentación agresiva, orquestación de recuperación y poda de contexto en tareas como análisis de documentos extensos, exploración de bases de código, razonamiento de múltiples archivos y flujos de trabajo agentes. Mistral posiciona el modelo para chat general, codificación, tareas de agencia y razonamiento complejo, con entradas y salidas de texto e imágenes. Eso coloca a Small 4 en la categoría cada vez más importante de modelos de propósito general que se espera que manejen tareas empresariales con mucho lenguaje y visualmente basadas en una superficie API.

Razonamiento configurable en tiempo de inferencia

Una decisión de producto más importante que el recuento de parámetros sin procesar es la introducción de un esfuerzo de razonamiento configurable. Small 4 expone un parámetro de razonamiento_effort por solicitud que permite a los desarrolladores intercambiar la latencia por un razonamiento más profundo en el momento de la prueba. En la documentación oficial, se describe que Reasoning_effort=”none” produce respuestas rápidas con un estilo de chat equivalente a Mistral Small 3.2, mientras que Reasoning_effort=”high” está pensado para un razonamiento más deliberado, paso a paso, con una verbosidad comparable a los modelos Magistral anteriores. Esto cambia el patrón de implementación. En lugar de enrutar entre un modelo rápido y un modelo de razonamiento, los equipos de desarrollo pueden mantener un único modelo en servicio y variar el comportamiento de inferencia en el momento de la solicitud. Esto es más limpio desde una perspectiva de sistemas y más fácil de administrar en productos donde solo un subconjunto de consultas realmente necesita un razonamiento costoso.

Declaraciones de rendimiento y posicionamiento del rendimiento

El equipo de Mistral también enfatiza la eficiencia de la inferencia. Small 4 ofrece una reducción del 40 % en el tiempo de finalización de un extremo a otro en una configuración con latencia optimizada y 3 veces más solicitudes por segundo en una configuración con rendimiento optimizado, ambos medidos en comparación con Mistral Small 3. Mistral no presenta Small 4 simplemente como un modelo de razonamiento más amplio, sino como un sistema destinado a mejorar la economía de implementación bajo cargas de servicio reales.

Resultados de referencia y eficiencia de producción

En cuanto a los puntos de referencia de razonamiento, el lanzamiento de Mistral se centra tanto en la calidad como en la eficiencia de la producción. El equipo de investigación de Mistral informa que Mistral Small 4 con razonamiento coincide o supera GPT-OSS 120B en AA LCR, LiveCodeBench y AIME 2025, mientras genera resultados más cortos. En las cifras publicadas por Mistral, Small 4 obtiene una puntuación de 0,72 en AA LCR con 1,6K caracteres, mientras que los modelos Qwen requieren de 5,8K a 6,1K caracteres para un rendimiento comparable. En LiveCodeBench, el equipo de Mistral afirma que Small 4 supera a GPT-OSS 120B y produce un 20% menos de producción. Estos son resultados publicados por la empresa, pero destacan una métrica más práctica que la puntuación de referencia por sí sola: el rendimiento por token generado. Para cargas de trabajo de producción, resultados más cortos pueden reducir directamente la latencia, el costo de inferencia y los gastos generales de análisis posterior.

https://mistral.ai/news/mistral-small-4

Detalles de implementación

Para el autohospedaje, Mistral brinda orientación sobre infraestructura específica. La compañía enumera un objetivo de implementación mínimo de 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 o 1x NVIDIA DGX B200, con configuraciones más grandes recomendadas para un mejor rendimiento. La tarjeta modelo en HuggingFace enumera la compatibilidad con vLLM, llama.cpp, SGLang y Transformers, aunque algunas rutas están marcadas como trabajo en progreso y vLLM es la opción recomendada. El equipo de Mistral también proporciona una imagen de Docker personalizada y señala que las correcciones relacionadas con la llamada de herramientas y el análisis del razonamiento aún se están actualizando. Este es un detalle útil para los equipos de ingeniería porque aclara que existe soporte, pero algunas piezas aún se están estabilizando en la pila de servicios de código abierto más amplia.

Conclusiones clave

Un modelo unificado: Mistral Small 4 combina capacidades de instrucción, razonamiento, codificación multimodal y agente en un solo modelo. Diseño disperso de MoE: utiliza 128 expertos con 4 expertos activos por token, apuntando a una mejor eficiencia que los modelos densos de tamaño total similar. Soporte de contexto largo: el modelo admite una ventana de contexto de 256k y acepta entradas de texto e imágenes con salida de texto. El razonamiento es configurable: los desarrolladores pueden ajustar el razonamiento_effort en el momento de la inferencia en lugar de enrutar entre modelos rápidos y de razonamiento separados. Enfoque de implementación abierta: se lanza bajo Apache 2.0 y admite el servicio a través de pilas como vLLM, con múltiples variantes de puntos de control en Hugging Face.

Consulte la ficha del modelo en HF y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.