El reconocimiento automático de voz (ASR) se está convirtiendo en un componente central de los productos de inteligencia artificial, desde herramientas para reuniones hasta agentes de voz. La nueva familia Voxtral Transcribe 2 de Mistral apunta a este espacio con 2 modelos que se dividen claramente en casos de uso por lotes y en tiempo real, al tiempo que mantienen enfocadas las limitaciones de costo, latencia e implementación.
El lanzamiento incluye:
Voxtral Mini Transcribe V2 para transcripción por lotes con diarioización. Voxtral Realtime (Voxtral Mini 4B Realtime 2602) para transcripción de streaming de baja latencia, lanzado como pesos abiertos.
Ambos modelos están diseñados para 13 idiomas: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y holandés.
Familia de modelos: lote y streaming, con roles claros
Mistral posiciona a Voxtral Transcribe 2 como “dos modelos de conversión de voz a texto de próxima generación” con calidad de transcripción, diarización y latencia ultrabaja de última generación.
Voxtral Mini Transcribe V2 es el modelo por lotes. Está optimizado para la calidad de la transcripción y la diarioización en todos los dominios e idiomas y se expone como un modelo de entrada de audio eficiente en la API de Mistral. Voxtral Realtime es el modelo de streaming. Está construido con una arquitectura de transmisión dedicada y se lanza como un modelo de peso abierto bajo Apache 2.0 en Hugging Face, con un tiempo de ejecución vLLM recomendado.
Un detalle clave: la registro del hablante la proporciona Voxtral Mini Transcribe V2, no Voxtral Realtime. Realtime se centra estrictamente en la transcripción de streaming rápida y precisa.
Voxtral Realtime: ASR de transmisión de parámetros 4B con retardo configurable
Voxtral Mini 4B Realtime 2602 es un modelo de transcripción de voz multilingüe en tiempo real de 4 parámetros. Es uno de los primeros modelos de peso abierto que alcanza una precisión comparable a la de los sistemas fuera de línea con un retraso inferior a 500 ms.
Arquitectura:
Modelo de lenguaje de parámetros ≈3.4B. Codificador de audio de parámetro ≈0.6B. El codificador de audio se entrena desde cero con atención causal. Tanto el codificador como el LM utilizan atención de ventana deslizante, lo que permite una transmisión “infinita” de manera efectiva.
La latencia frente a la precisión se puede configurar explícitamente:
El retraso de la transcripción se puede ajustar de 80 ms a 2,4 s mediante un parámetro transcription_delay_ms. El Mistral describe la latencia como “configurable hasta menos de 200 ms” para aplicaciones en vivo. Con un retraso de 480 ms, Realtime coincide con los principales modelos de transcripción de código abierto fuera de línea y API en tiempo real en puntos de referencia como FLEURS e inglés de formato largo. Con un retraso de 2,4 s, Realtime coincide con Voxtral Mini Transcribe V2 en FLEURS, que es apropiado para tareas de subtitulado donde se acepta una latencia ligeramente mayor.
Desde el punto de vista de la implementación:
El modelo se lanza en BF16 y está diseñado para implementación en el dispositivo o en el borde. Puede ejecutarse en tiempo real en una sola GPU con ≥16 GB de memoria, según las instrucciones de servicio de vLLM en la tarjeta del modelo.
La perilla de control principal es la configuración de retardo:
Retrasos más bajos (≈80–200 ms) para agentes interactivos donde domina la capacidad de respuesta. Alrededor de 480 ms como el “punto óptimo” recomendado entre latencia y precisión. Retrasos más altos (hasta 2,4 s) cuando necesita una precisión lo más cercana posible al modelo por lotes.
Voxtral Mini Transcribe V2: ASR por lotes con diarización y sesgo de contexto
Voxtral Mini Transcribe V2 es un modelo de entrada de audio de pesos cerrados optimizado solo para transcripción. Está expuesto en la API de Mistral como voxtral-mini-2602 a 0,003 dólares por minuto.
Sobre puntos de referencia y precios:
Tasa de error de palabras (WER) de alrededor del 4 % en el punto de referencia de transcripción FLEURS, en promedio en los 10 idiomas principales. “La mejor relación precio-rendimiento de cualquier API de transcripción” a $0,003/min. Supera a GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal y Deepgram Nova en precisión en sus comparaciones. Procesa audio ≈3 veces más rápido que Scribe v2 de ElevenLabs y al mismo tiempo iguala la calidad a una quinta parte del costo.
Las características orientadas a la empresa se concentran en este modelo:
Registro de oradores Genera etiquetas de oradores con horas de inicio y finalización precisas. Diseñado para reuniones, entrevistas y llamadas multipartitas. Para discursos superpuestos, el modelo normalmente emite una única etiqueta de hablante. Sesgo de contexto Acepta hasta 100 palabras o frases para sesgar la transcripción hacia nombres o términos de dominio específicos. Optimizado para inglés, con soporte experimental para otros idiomas. Marcas de tiempo a nivel de palabra Marcas de tiempo de inicio y finalización por palabra para subtítulos, alineación y flujos de trabajo de audio con capacidad de búsqueda. Robustez frente al ruido Mantiene la precisión en entornos ruidosos como plantas de fábrica, centros de llamadas y grabaciones de campo. Soporte de audio más prolongado Maneja hasta 3 horas de audio en una sola solicitud.
La cobertura de idiomas refleja Realtime: 13 idiomas, y Mistral señaló que el desempeño en idiomas distintos del inglés “supera significativamente a los competidores” en su evaluación.
API, herramientas y opciones de implementación
Las rutas de integración son sencillas y difieren ligeramente entre los dos modelos:
Voxtral Mini Transcribe V2 Servido a través de la API de transcripción de audio de Mistral (/v1/audio/transcriptions) como un servicio eficiente de solo transcripción. Con un precio de $0,003/min. (Mistral AI) Disponible en el área de juegos de audio de Mistral Studio y en Le Chat para pruebas interactivas. Voxtral Realtime Disponible a través de la API de Mistral a $0,006/min. Lanzado como pesos abiertos en Hugging Face (mistralai/Voxtral-Mini-4B-Realtime-2602) bajo Apache 2.0, con soporte oficial de vLLM Realtime.
El área de juegos de audio de Mistral Studio permite a los usuarios:
Sube hasta 10 archivos de audio (.mp3, .wav, .m4a, .flac, .ogg) de hasta 1 GB cada uno. Active la diarioización, elija la granularidad de la marca de tiempo y configure los términos de sesgo de contexto.
Conclusiones clave
Familia de dos modelos con funciones claras: Voxtral Mini Transcribe V2 apunta a la transcripción y diarización por lotes, mientras que Voxtral Realtime apunta a ASR de transmisión de baja latencia, ambos en 13 idiomas. Modelo en tiempo real: parámetros 4B con retraso ajustable: Voxtral Realtime utiliza una arquitectura 4B (≈3.4B LM + ≈0.6B codificador) con ventana deslizante y atención causal, y admite un retraso de transcripción configurable de 80 ms a 2,4 s. La compensación entre latencia y precisión es explícita: con un retraso de alrededor de 480 ms, Voxtral Realtime alcanza una precisión comparable a sistemas sólidos fuera de línea y en tiempo real, y a 2,4 s iguala a Voxtral Mini Transcribe V2 en FLEURS. El modelo por lotes agrega funciones empresariales y de diario: Voxtral Mini Transcribe V2 proporciona diario, polarización de contexto con hasta 100 frases, marcas de tiempo a nivel de palabra, robustez del ruido y admite hasta 3 horas de audio por solicitud a $0,003/min. Implementación: API de lote cerrado, pesos abiertos en tiempo real: Mini Transcribe V2 se sirve a través de la API de transcripción de audio y el área de juegos de Mistral, mientras que Voxtral Realtime tiene un precio de $0,006/min y también está disponible como pesos abiertos Apache 2.0 con soporte oficial de vLLM Realtime.
Consulta los detalles técnicos y los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.