La semana pasada, Microsoft AI anunció MAI-Transcribe-1.5. Es la segunda versión de la familia de conversión de voz a texto interna de la empresa. El modelo apunta a la precisión en 43 idiomas, acentos y entornos ruidosos. El equipo de Microsoft lo posiciona para cargas de trabajo de transcripción de producción.
¿Qué es MAI-Transcribe-1.5?
MAI-Transcribe-1.5 es un modelo de reconocimiento automático de voz (ASR). Toma audio como entrada y devuelve texto. Microsoft lo construyó internamente, no a través de terceros. El modelo maneja 43 idiomas con un solo sistema. Está optimizado para diversos acentos, dialectos y condiciones acústicas del mundo real.
Microsoft lo está integrando en Copilot, Teams, GitHub y Dynamics 365 Contact Center. También está disponible en Foundry, la plataforma modelo de Microsoft.
El caso de la precisión
La precisión aquí se mide por Word-Error-Rate (WER). Un WER más bajo significa menos errores por palabra transcrita. Microsoft reporta el mejor WER de su clase en 43 idiomas en FLEURS. FLEURS es un punto de referencia de transcripción multilingüe estándar.
En la clasificación de Análisis Artificial, el modelo registra un WER del 2,4%. Eso lo coloca en tercer lugar en un punto de referencia abierto competitivo. Entonces el panorama está dividido. El equipo de Microsoft ocupa el primer lugar en FLEURS y el tercero en Análisis Artificial.
La expansión del lenguaje es la otra historia de la precisión. La cobertura aumentó de 25 idiomas a 43. Se agregaron 18 nuevos idiomas sin comprometer la precisión. Diez de ellos son del sur de Asia, incluidos el bengalí, el tamil y el telugu. Ocho son europeos, como el ucraniano, el griego y el catalán.
Velocidad
MAI-Transcribe-1.5 lidera en precisión, tiempos y velocidad en la clasificación de Análisis Artificial. Funciona hasta 5 veces más rápido que modelos de precisión comparable. El efecto es mayor en archivos de audio largos. El modelo puede transcribir una hora de audio en menos de 15 segundos.
Microsoft cita aceleraciones de hasta 5 veces con respecto a Gemini 3.1, Scribe v2 y GPT-4o-Transcribe en audio largo. En comparación con el MAI-Transcribe-1 anterior, la tarjeta Azure muestra una inferencia de formato largo hasta 5,7 veces más rápida. Para las canalizaciones por lotes que procesan archivos grandes, esa brecha de latencia se agrava rápidamente.
Sesgo de palabras clave (entidad): la característica que vale la pena comprender
Los transcriptores genéricos suelen fallar en palabras de dominios específicos. Estos incluyen personas, nombres de productos, términos médicos y siglas internas. Esas palabras suelen ser las más importantes para los usuarios empresariales.
MAI-Transcribe-1.5 agrega sesgo de palabras clave, también llamado sesgo de entidad. Usted proporciona una lista de palabras clave específicas del dominio. La tarjeta Azure admite hasta 200 palabras clave. El modelo sesga sus predicciones hacia esa lista. Fundamentalmente, no fuerza ciegamente los partidos. Utiliza el contexto compartido para decidir cuándo se debe aplicar el sesgo. Microsoft informa una reducción del WER del 30 % en FLEURS cuando se utiliza el sesgo.
Un breve ejemplo muestra el efecto. Sin prejuicios, los nombres se traducen como “Sean”, “Oif” y “Societal”. Con una lista de nombres proporcionada, el modelo recupera “Shaun”, “Aoife” y “Xochitl”. Esto es relevante para reuniones, atención médica y centros de llamadas con vocabulario especializado.
Casos de uso
La tarjeta modelo de Azure enumera escenarios de producción concretos. Cada uno se asigna a una carga de trabajo de ingeniería común:
Subtítulos de vídeo para medios y plataformas de contenido. Herramientas de accesibilidad que dependen de subtítulos precisos. Transcripción de reuniones para herramientas de colaboración estilo Teams. Análisis de llamadas para centros de contacto y análisis de soporte. Flujos de trabajo de creación de contenido que necesitan transcripciones rápidas de borradores. Agentes de voz que convierten la voz en texto antes del razonamiento.
La identificación automática del idioma ayuda cuando se desconoce el idioma de entrada. El modelo detecta el idioma hablado sin configuración manual.
MAI-Transcribe-1.5 frente a MAI-Transcribe-1
La siguiente tabla compara las dos generaciones utilizando únicamente los hechos indicados.
Fortalezas y limitaciones
Fortalezas:
Cobertura de 43 idiomas desde un solo modelo, en comparación con 25. El sesgo de palabra clave/entidad produce una reducción de WER de hasta un 30 % en FLEURS. Transcripción de menos de 15 segundos para una hora de audio. Disponible de forma general ahora a través de Azure AI Foundry. Robusto en audio ruidoso del mundo real, según Microsoft.
Limitaciones:
Aún no hay registro, por lo que las etiquetas de los oradores no están disponibles. No hay API de transmisión nativa, por lo que el uso en tiempo real es limitado. Varias afirmaciones de precisión, velocidad y costos son de primera parte. Ocupa el tercer lugar en Análisis Artificial, detrás de dos competidores.