Microsoft AI presenta MAI-Transcribe-1.5: 2,4% WER en análisis artificial, la mejor precisión FLEURS de su clase y transcripción de audio de larga duración hasta 5 veces más rápida

La semana pasada, Microsoft AI anunció MAI-Transcribe-1.5. Es la segunda versión de la familia de conversión de voz a texto interna de la empresa. El modelo apunta a la precisión en 43 idiomas, acentos y entornos ruidosos. El equipo de Microsoft lo posiciona para cargas de trabajo de transcripción de producción.

¿Qué es MAI-Transcribe-1.5?

MAI-Transcribe-1.5 es un modelo de reconocimiento automático de voz (ASR). Toma audio como entrada y devuelve texto. Microsoft lo construyó internamente, no a través de terceros. El modelo maneja 43 idiomas con un solo sistema. Está optimizado para diversos acentos, dialectos y condiciones acústicas del mundo real.

Microsoft lo está integrando en Copilot, Teams, GitHub y Dynamics 365 Contact Center. También está disponible en Foundry, la plataforma modelo de Microsoft.

El caso de la precisión

La precisión aquí se mide por Word-Error-Rate (WER). Un WER más bajo significa menos errores por palabra transcrita. Microsoft reporta el mejor WER de su clase en 43 idiomas en FLEURS. FLEURS es un punto de referencia de transcripción multilingüe estándar.

En la clasificación de Análisis Artificial, el modelo registra un WER del 2,4%. Eso lo coloca en tercer lugar en un punto de referencia abierto competitivo. Entonces el panorama está dividido. El equipo de Microsoft ocupa el primer lugar en FLEURS y el tercero en Análisis Artificial.

La expansión del lenguaje es la otra historia de la precisión. La cobertura aumentó de 25 idiomas a 43. Se agregaron 18 nuevos idiomas sin comprometer la precisión. Diez de ellos son del sur de Asia, incluidos el bengalí, el tamil y el telugu. Ocho son europeos, como el ucraniano, el griego y el catalán.

Velocidad

MAI-Transcribe-1.5 lidera en precisión, tiempos y velocidad en la clasificación de Análisis Artificial. Funciona hasta 5 veces más rápido que modelos de precisión comparable. El efecto es mayor en archivos de audio largos. El modelo puede transcribir una hora de audio en menos de 15 segundos.

Microsoft cita aceleraciones de hasta 5 veces con respecto a Gemini 3.1, Scribe v2 y GPT-4o-Transcribe en audio largo. En comparación con el MAI-Transcribe-1 anterior, la tarjeta Azure muestra una inferencia de formato largo hasta 5,7 veces más rápida. Para las canalizaciones por lotes que procesan archivos grandes, esa brecha de latencia se agrava rápidamente.

Sesgo de palabras clave (entidad): la característica que vale la pena comprender

Los transcriptores genéricos suelen fallar en palabras de dominios específicos. Estos incluyen personas, nombres de productos, términos médicos y siglas internas. Esas palabras suelen ser las más importantes para los usuarios empresariales.

MAI-Transcribe-1.5 agrega sesgo de palabras clave, también llamado sesgo de entidad. Usted proporciona una lista de palabras clave específicas del dominio. La tarjeta Azure admite hasta 200 palabras clave. El modelo sesga sus predicciones hacia esa lista. Fundamentalmente, no fuerza ciegamente los partidos. Utiliza el contexto compartido para decidir cuándo se debe aplicar el sesgo. Microsoft informa una reducción del WER del 30 % en FLEURS cuando se utiliza el sesgo.

Un breve ejemplo muestra el efecto. Sin prejuicios, los nombres se traducen como “Sean”, “Oif” y “Societal”. Con una lista de nombres proporcionada, el modelo recupera “Shaun”, “Aoife” y “Xochitl”. Esto es relevante para reuniones, atención médica y centros de llamadas con vocabulario especializado.

Casos de uso

La tarjeta modelo de Azure enumera escenarios de producción concretos. Cada uno se asigna a una carga de trabajo de ingeniería común:

Subtítulos de vídeo para medios y plataformas de contenido. Herramientas de accesibilidad que dependen de subtítulos precisos. Transcripción de reuniones para herramientas de colaboración estilo Teams. Análisis de llamadas para centros de contacto y análisis de soporte. Flujos de trabajo de creación de contenido que necesitan transcripciones rápidas de borradores. Agentes de voz que convierten la voz en texto antes del razonamiento.

La identificación automática del idioma ayuda cuando se desconoce el idioma de entrada. El modelo detecta el idioma hablado sin configuración manual.

MAI-Transcribe-1.5 frente a MAI-Transcribe-1

La siguiente tabla compara las dos generaciones utilizando únicamente los hechos indicados.

AtributoMAI-Transcribe-1MAI-Transcribe-1.5Idiomas cubiertos2543Sesgo de palabra clave/entidadNo listadoHasta 200 palabras claveVelocidad de inferencia de formato largoLínea de baseHasta 5,7 veces más rápidoAnálisis artificial WERNo especificado2.4% (clasificado #3)Posición FLEURS (según Microsoft)Lo último en tecnologíaEl mejor en su clase en 43 idiomasIdentificación automática de idiomaNo especificadoSíCiclo de vidaLanzamiento anteriorDisponible con carácter general (GA)Entrada/SalidaAudio/TextoAudio/Texto

Fortalezas y limitaciones

Fortalezas:

Cobertura de 43 idiomas desde un solo modelo, en comparación con 25. El sesgo de palabra clave/entidad produce una reducción de WER de hasta un 30 % en FLEURS. Transcripción de menos de 15 segundos para una hora de audio. Disponible de forma general ahora a través de Azure AI Foundry. Robusto en audio ruidoso del mundo real, según Microsoft.

Limitaciones:

Aún no hay registro, por lo que las etiquetas de los oradores no están disponibles. No hay API de transmisión nativa, por lo que el uso en tiempo real es limitado. Varias afirmaciones de precisión, velocidad y costos son de primera parte. Ocupa el tercer lugar en Análisis Artificial, detrás de dos competidores.

Microsoft AI presenta MAI-Transcribe-1.5: 2,4% WER en análisis artificial, la mejor precisión FLEURS de su clase y transcripción de audio de larga duración hasta 5 veces más rápida

ByEquipo de 7 minutos

¿Qué es MAI-Transcribe-1.5?

El caso de la precisión

Velocidad

Sesgo de palabras clave (entidad): la característica que vale la pena comprender

Casos de uso

MAI-Transcribe-1.5 frente a MAI-Transcribe-1

Fortalezas y limitaciones

Fortalezas:

Limitaciones:

Fuentes

By Equipo de 7 minutos

Related Post

Creación de optimización de avisos reflexivos con GEPA: avisos de múltiples componentes, comentarios estructurados y validación retenida

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

You missed

Los abejorros utilizan herramientas para resolver problemas complejos, a pesar de no estar entrenados para hacerlo

El presidente checo quiere deshacerse de la corona. Praga tiene otras ideas

Las normas de compensación de vuelos de la UE están en riesgo a medida que la reforma de los derechos de los pasajeros se acerca a la fecha límite

BroRilla”Woods hace que el TL se vuelva loco después de debutar una NUEVA apariencia