Mistral AI se libera Voxtral: los mejores (y abiertos) modelos de reconocimiento de voz

Mistral Ai ha lanzado Voxtral, una familia de modelos de peso abierto,Voxtral-Small-24b y Voxtral-mini-3b—Designado para manejar las entradas de audio y texto. Construido sobre el marco de modelado de idiomas de Mistral, estos modelos integran el reconocimiento automático de voz (ASR) con capacidades de comprensión del lenguaje natural. Lanzado bajo la licencia Apache 2.0, Voxtral proporciona soluciones prácticas para la transcripción, resumen, respuesta a preguntas e invocación de funciones basada en el comando de voz.

El diseño de Voxtral se alinea con la creciente demanda de procesamiento de audio integrado tanto en aplicaciones de consumo como en sistemas empresariales. Estos modelos tienen como objetivo agilizar las tareas comunes que involucran la entrada hablada, ofreciendo una interfaz configurable y consciente del lenguaje.

Arquitectura modelo y gestión del contexto

Voxtral se basa en la columna vertebral Mistral Small 3.1 e incorpora un front-end de audio para permitir el procesamiento de datos hablados y textuales. Ambos modelos admiten un Ventana de contexto de 32,000 tokenhabilitando:

  • Transcripción de audio hasta aproximadamente 30 minutos
  • Razonamiento extendido o resumen para audio que abarca hasta 40 minutos

Este soporte de contexto a largo plazo ayuda a evitar la necesidad de segmentar o truncar el audio de entrada para la mayoría de los casos de uso típicos, particularmente en el análisis de reuniones o flujos de trabajo de documentación multimedia.

Capacidades funcionales clave

  1. Rendimiento de transcripción
    • Voxtral proporciona capacidades ASR confiables en varios entornos acústicos.
    • Mistral ofrece puntos finales de API dedicados optimizados para tareas de transcripción de baja latencia, útiles en contextos en tiempo real y de transmisión.
  2. Procesamiento multilingüe
    • Voxtral incluye la detección automática del lenguaje.
    • Se desempeña bien en un conjunto de idiomas importantes, que incluyen inglés, español, francés, portugués, hindi, alemán, holandés e italiano.
    • Una sola instancia de modelo puede manejar escenarios de lenguaje mixto sin ajustar.
  3. Comprensión de audio más allá de la transcripción
    • Los modelos pueden responder a las consultas sobre el contenido de audio (por ejemplo, “¿Cuál fue la decisión tomada?”) Y generar resúmenes concisos.
    • Estas tareas se pueden ejecutar sin encadenar un modelo ASR con un LLM separado, reduciendo la latencia y la complejidad del sistema.
  4. Ejecución de funciones basada en la voz
    • Voxtral permite el análisis de las intenciones de los usuarios directamente de la voz y la activación de acciones de backend o flujos de trabajo en consecuencia.
    • Esta capacidad es relevante para asistentes activados por voz, sistemas industriales y automatización del servicio al cliente.
  5. Soporte del modo de texto
    • Además del audio, Voxtral conserva un fuerte rendimiento en las tareas solo de texto, debido a su base compartida con los modelos de idiomas de Mistral.
    • Esta modalidad dual permite experiencias de usuario más suaves en aplicaciones de interfaz múltiple.

Comparación: variantes del modelo voxtral

Modelo Parámetros Modalidad de entrada Longitud de contexto Contexto de implementación
Voxtral-mini-3b 3B Audio + texto Tokens de 32k Entornos de borde o móviles
Voxtral-Small-24b 24B Audio + texto Tokens de 32k Cloud, sistemas basados en API

La variante del modelo 3B está sintonizado para la implementación liviana y la inferencia local, mientras que la versión 24B es adecuada para el uso de nivel de producción con recursos de cómputo más altos.

Puntos de referencia

Transcripción del habla
Comprensión de audio
Texto

Opciones de implementación e interfaces API

Mistral proporciona puntos finales optimizados solo para transcripción para desarrolladores que trabajan en aplicaciones sensibles a la latencia. Estos permiten una integración directa en sistemas existentes como:

  • Herramientas de transcripción de reuniones y llamadas
  • Sistemas de traducción en tiempo real
  • Plataformas de toma de notas de audio
  • Paneles de control impulsados por la voz

Dada su naturaleza de peso abierto y su licencia permisiva, los modelos VOXTRAL se pueden implementar en entornos seguros locales o en infraestructura en la nube, ofreciendo flexibilidad para implementaciones de grado empresarial.

Uso práctico en sistemas centrados en voz

A medida que las interfaces habladas continúan expandiéndose a través de aplicaciones móviles, dispositivos portátiles, interfaces automotrices y sistemas de soporte, herramientas como Voxtral pueden permitir un procesamiento de voz más preciso y consciente de contexto. En lugar de requerir sistemas de múltiples etapas, los desarrolladores ahora pueden implementar tuberías de comprensión de audio con menos piezas móviles.

Conclusión: un enfoque modular para la integración del lenguaje de audio

Voxtral presenta un enfoque de modelado en lenguaje de audio que combina la precisión de la transcripción con razonamiento a nivel de idioma y análisis de comandos. Su cobertura multilingüe, soporte de contexto largo y licencias flexibles lo hacen adecuado para una variedad de aplicaciones, desde herramientas de resumen hasta agentes de voz interactivos.


Mira el Detalle técnico, Voxtral-Small-24b-2507 y Voxtral-mini-3b-2507. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Llegar a los desarrolladores de IA más influyentes en todo el mundo. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.