Microsoft ha lanzado VibeVoice-ASR como parte de la familia VibeVoice de modelos de inteligencia artificial de voz de frontera de código abierto. VibeVoice-ASR se describe como un modelo unificado de voz a texto que puede manejar audio de formato largo de 60 minutos en una sola pasada y generar transcripciones estructuradas que codifican quién, cuándo y qué, con soporte para palabras activas personalizadas.
VibeVoice se encuentra en un único repositorio que aloja modelos de texto a voz, TTS en tiempo real y reconocimiento automático de voz bajo una licencia del MIT. VibeVoice utiliza tokenizadores de voz continuos que funcionan a 7,5 Hz y un marco de difusión de siguiente token donde un modelo de lenguaje grande analiza el texto y el diálogo y un cabezal de difusión genera detalles acústicos. Este marco está documentado principalmente para TTS, pero define el contexto de diseño general en el que vive VibeVoice-ASR.
ASR de formato largo con un único contexto global
A diferencia de los sistemas ASR (reconocimiento automático de voz) convencionales que primero cortan el audio en segmentos cortos y luego ejecutan la diarización y alineación como componentes separados, VibeVoice-ASR está diseñado para aceptar hasta 60 minutos de entrada de audio continua dentro de un presupuesto de longitud de token de 64K. El modelo mantiene una representación global de la sesión completa. Esto significa que el modelo puede mantener la identidad del hablante y el contexto del tema durante toda la hora en lugar de restablecerse cada pocos segundos.
Procesamiento de un solo paso en 60 minutos
La primera característica clave es que muchos sistemas ASR convencionales procesan audio largo cortándolo en segmentos cortos, lo que puede perder el contexto global. En cambio, VibeVoice-ASR requiere hasta 60 minutos de audio continuo dentro de una ventana de token de 64K para que pueda mantener un seguimiento constante del hablante y un contexto semántico durante toda la grabación.
Esto es importante para tareas como la transcripción de reuniones, conferencias y llamadas de soporte prolongadas. Una sola pasada por la secuencia completa simplifica la tubería. No es necesario implementar una lógica personalizada para fusionar hipótesis parciales o reparar etiquetas de altavoces en los límites entre fragmentos de audio.
Hotwords personalizadas para la precisión del dominio
Las palabras activas personalizadas son la segunda característica clave. Los usuarios pueden proporcionar palabras clave como nombres de productos, nombres de organizaciones, términos técnicos o contexto de fondo. El modelo utiliza estas palabras clave para guiar el proceso de reconocimiento.
Esto le permite desviar la decodificación hacia la ortografía y pronunciación correctas para tokens específicos del dominio sin volver a entrenar el modelo. Por ejemplo, un usuario desarrollador puede pasar nombres de proyectos internos o términos específicos del cliente en el momento de la inferencia. Esto resulta útil cuando se implementa el mismo modelo base en varios productos que comparten condiciones acústicas similares pero vocabularios muy diferentes.
Microsoft también incluye un directorio finetuning-asr con scripts de ajuste fino basados en LoRA para VibeVoice-ASR. Juntos, las palabras activas y el ajuste fino de LoRA brindan un camino tanto para una adaptación ligera como para una especialización de dominio más profunda.
Transcripción enriquecida, diarioización y sincronización
La tercera característica es la transcripción enriquecida con quién, cuándo y qué. El modelo realiza conjuntamente ASR, diario y marca de tiempo, y devuelve una salida estructurada que indica quién dijo qué y cuándo.
Vea a continuación las tres figuras de evaluación denominadas DER, cpWER y tcpWER.
DER es Tasa de error de diarización, mide qué tan bien el modelo asigna segmentos de voz al hablante correcto. cpWER y tcpWER son métricas de tasa de error de palabras calculadas en configuraciones conversacionales.
Estos gráficos resumen qué tan bien se desempeña el modelo en datos de formato largo de varios hablantes, que es el objetivo principal para este sistema ASR.
El formato de salida estructurado es muy adecuado para el procesamiento posterior, como resúmenes específicos del orador, extracción de elementos de acción o paneles de análisis. Dado que los segmentos, los hablantes y las marcas de tiempo ya provienen de un único modelo, el código posterior puede tratar la transcripción como un registro de eventos alineado en el tiempo.
Conclusiones clave
VibeVoice-ASR es un modelo unificado de voz a texto que maneja audio de 60 minutos de duración en una sola pasada dentro de un contexto de token de 64K. El modelo realiza conjuntamente ASR, diarioización y marca de tiempo para generar transcripciones estructuradas que codifican quién, cuándo y qué en un solo paso de inferencia. Las palabras activas personalizadas permiten a los usuarios insertar términos específicos del dominio, como nombres de productos o jerga técnica, para mejorar la precisión del reconocimiento sin volver a entrenar el modelo. La evaluación con DER, cpWER y tcpWER se centra en escenarios conversacionales de varios oradores que alinean el modelo con reuniones, conferencias y llamadas largas. VibeVoice-ASR se lanza en la pila de código abierto de VibeVoice bajo licencia del MIT con pesos oficiales, scripts de ajuste y un patio de juegos en línea para la experimentación.
Consulte los pesos del modelo, el repositorio y el área de juegos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.