Microsoft AI lanza VibeVoice-Realtime: un modelo ligero de conversión de texto a voz en tiempo real que admite la entrada de texto en streaming y una sólida generación de voz de formato largo

Microsoft ha lanzado VibeVoice-Realtime-0.5B, un modelo de texto a voz en tiempo real que funciona con entrada de texto en streaming y salida de voz en formato largo, dirigido a aplicaciones de estilo agente y narración de datos en vivo. El modelo puede empezar a producir voz audible en unos 300 ms, lo cual es fundamental cuando un modelo de lenguaje todavía está generando el resto de su respuesta.

¿Dónde encaja VibeVoice Realtime en VibeVoice Stack?

VibeVoice es un marco más amplio que se centra en la difusión de tokens próximos a través de tokens de voz continuos, con variantes diseñadas para audio de formato largo para varios hablantes, como los podcasts. El equipo de investigación muestra que los principales modelos de VibeVoice pueden sintetizar hasta 90 minutos de voz con hasta 4 hablantes en una ventana de contexto de 64k utilizando tokenizadores de voz continuos a 7,5 Hz.

La variante Realtime 0.5B es la rama de baja latencia de esta familia. La tarjeta modelo informa una longitud de contexto de 8k y una duración de generación típica de aproximadamente 10 minutos para un solo orador, lo cual es suficiente para la mayoría de los agentes de voz, narradores de sistemas y paneles de control en vivo. Un conjunto separado de modelos VibeVoice, VibeVoice-1.5B y VibeVoice Large, manejan audio de varios altavoces de formato largo con ventanas contextuales de 32k y 64k y tiempos de generación más largos.

Arquitectura de transmisión entrelazada

La variante en tiempo real utiliza un diseño de ventanas intercaladas. El texto entrante se divide en fragmentos. El modelo codifica incrementalmente nuevos fragmentos de texto mientras, en paralelo, continúa la generación acústica latente basada en la difusión a partir del contexto anterior. Esta superposición entre la codificación de texto y la decodificación acústica es lo que permite al sistema alcanzar una primera latencia de audio de aproximadamente 300 ms en el hardware adecuado.

A diferencia de las variantes de VibeVoice de formato largo, que utilizan tokenizadores semánticos y acústicos, el modelo en tiempo real elimina el tokenizador semántico y utiliza sólo un tokenizador acústico que opera a 7,5 Hz. El tokenizador acústico se basa en una variante σ VAE de LatentLM, con una arquitectura decodificadora de codificador simétrico de espejo que utiliza 7 etapas de bloques transformadores modificados y realiza una reducción de resolución de 3200x desde audio de 24 kHz.

Además de este tokenizador, un cabezal de difusión predice las características acústicas de VAE. El cabezal de difusión tiene 4 capas y aproximadamente 40 M de parámetros y está condicionado a estados ocultos de Qwen2.5-0.5B. Utiliza un proceso de modelos probabilísticos de difusión de eliminación de ruido con guía libre de clasificadores y muestreadores de estilo DPM Solver, siguiendo el siguiente enfoque de difusión de tokens del sistema VibeVoice completo.

La formación se desarrolla en dos etapas. En primer lugar, el tokenizador acústico está preentrenado. Luego, el tokenizador se congela y el equipo entrena al LLM junto con el jefe de difusión con el aprendizaje del plan de estudios sobre la longitud de la secuencia, aumentando de aproximadamente 4k a 8,192 tokens. Esto mantiene estable el tokenizador, mientras que el LLM y el cabezal de difusión aprenden a mapear desde tokens de texto hasta tokens acústicos en contextos prolongados.

Calidad en LibriSpeech y SEED

VibeVoice Realtime informa un rendimiento de disparo cero en la prueba LibriSpeech limpia. VibeVoice Realtime 0.5B alcanza una tasa de error de palabras (WER) del 2,00 por ciento y una similitud de hablantes de 0,695. A modo de comparación, VALL-E 2 tiene WER 2.40 con similitud 0.643 y Voicebox tiene WER 1.90 con similitud 0.662 en el mismo punto de referencia.

En la prueba de referencia SEED para expresiones breves, VibeVoice Realtime-0.5B alcanza un WER del 2,05 por ciento y una similitud del hablante del 0,633. SparkTTS obtiene un WER ligeramente más bajo de 1,98 pero una similitud más baja de 0,584, mientras que Seed TTS alcanza un WER de 2,25 y la similitud más alta reportada de 0,762. El equipo de investigación observó que el modelo en tiempo real está optimizado para la solidez del formato largo, por lo que las métricas de oraciones cortas son informativas pero no son el objetivo principal.

Desde el punto de vista de la ingeniería, la parte interesante es la compensación. Al ejecutar el tokenizador acústico a 7,5 Hz y utilizar la siguiente difusión del token, el modelo reduce la cantidad de pasos por segundo de audio en comparación con tokenizadores de mayor velocidad de fotogramas, al tiempo que preserva el WER competitivo y la similitud de los altavoces.

Patrón de integración para agentes y aplicaciones

La configuración recomendada es ejecutar VibeVoice-Realtime-0.5B junto a un LLM conversacional. El LLM transmite tokens durante la generación. Estos fragmentos de texto se alimentan directamente al servidor VibeVoice, que sintetiza el audio en paralelo y lo transmite de vuelta al cliente.

Para muchos sistemas, esto parece un pequeño microservicio. El proceso TTS tiene un contexto fijo de 8k y aproximadamente 10 minutos de presupuesto de audio por solicitud, lo que se adapta a los diálogos típicos de los agentes, las llamadas de soporte y los paneles de control. Debido a que el modelo es sólo de voz y no genera ambiente ni música de fondo, es más adecuado para interfaces de voz, productos de estilo asistente y narración programática en lugar de producción de medios.

Conclusiones clave

TTS de transmisión de baja latencia: VibeVoice-Realtime-0.5B es un modelo de texto a voz en tiempo real que admite la entrada de texto en tiempo real y puede emitir los primeros fotogramas de audio en aproximadamente 300 ms, lo que lo hace adecuado para agentes interactivos y narraciones en vivo donde los usuarios no pueden tolerar retrasos de 1 a 3 segundos. LLM junto con difusión sobre tokens de voz continuos: el modelo sigue el diseño de VibeVoice, utiliza un modelo de lenguaje Qwen2.5 0.5B para procesar el contexto del texto y el flujo de diálogo, luego un cabezal de difusión opera con tokens acústicos continuos desde un tokenizador de baja velocidad de fotogramas para generar detalles de nivel de forma de onda, que se adapta mejor a secuencias largas que el TTS clásico basado en espectrogramas. Alrededor de 1.000 millones de parámetros totales con pila acústica: mientras que el LLM base tiene 0.500 millones de parámetros, el decodificador acústico tiene alrededor de 340 millones de parámetros y el cabezal de difusión alrededor de 40 millones de parámetros, por lo que la pila completa en tiempo real tiene aproximadamente 1.000 millones de parámetros, lo cual es importante para la planificación de la memoria de la GPU y el tamaño de implementación. Calidad competitiva en LibriSpeech y SEED: en la prueba LibriSpeech limpia, VibeVoice-Realtime-0.5B alcanza una tasa de error de palabras del 2,00 por ciento y una similitud del hablante de 0,695, y en la prueba SEED alcanza un WER del 2,05 por ciento y una similitud de 0,633, lo que lo coloca en la misma banda de calidad que los sistemas TTS recientes y sólidos, sin dejar de estar ajustado para lograr robustez en formato largo.

Consulte la tarjeta modelo en HF. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.