Los investigadores de Qwen lanzan Qwen3-TTS: una suite TTS multilingüe abierta con latencia en tiempo real y control de voz detallado

El equipo Qwen de Alibaba Cloud tiene Qwen3-TTS de código abierto, una familia de modelos multilingües de conversión de texto a voz que se enfocan en tres tareas principales en una sola pila: clonación de voz, diseño de voz y generación de voz de alta calidad.

https://arxiv.org/pdf/2601.15621v1

Familia de modelos y capacidades.

Qwen3-TTS utiliza un tokenizador de voz de 12 Hz y 2 tamaños de modelo de lenguaje, 0,6 B y 1,7 B, empaquetados en 3 tareas principales. La versión abierta expone cinco modelos, Qwen3-TTS-12Hz-0.6B-Base y Qwen3-TTS-12Hz-1.7B-Base para clonación de voz y TTS genérico, Qwen3-TTS-12Hz-0.6B-CustomVoice y Qwen3-TTS-12Hz-1.7B-CustomVoice para altavoces preestablecidos que se pueden solicitar, y Qwen3-TTS-12Hz-1.7B-VoiceDesign para creación de voz de forma libre a partir de descripciones en lenguaje natural, junto con el códec Qwen3-TTS-Tokenizer-12Hz.

Todos los modelos admiten 10 idiomas: chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español e italiano. Las variantes de CustomVoice se entregan con 9 timbres seleccionados, como Vivian, una joven y brillante voz femenina china, Ryan, una dinámica voz masculina en inglés y Ono_Anna, una juguetona voz femenina japonesa, cada uno con una breve descripción que codifica el timbre y el estilo de habla.

El modelo VoiceDesign asigna instrucciones de texto directamente a nuevas voces, por ejemplo, “hablar con una voz masculina adolescente nerviosa con entonación ascendente” y luego se puede combinar con el modelo Base generando primero un breve clip de referencia y reutilizándolo a través de create_voice_clone_prompt.

https://arxiv.org/pdf/2601.15621v1

Arquitectura, tokenizador y ruta de transmisión

Qwen3-TTS es un modelo de lenguaje de doble pista: una pista predice señales acústicas discretas a partir del texto y la otra maneja señales de alineación y control. El sistema está entrenado en más de 5 millones de horas de habla multilingüe en 3 etapas previas al entrenamiento que van desde el mapeo general hasta datos de alta calidad y soporte de contexto prolongado hasta 32,768 tokens.

Un componente clave es el códec Qwen3-TTS-Tokenizer-12Hz. Opera a 12,5 cuadros por segundo, aproximadamente 80 ms por token, y utiliza 16 cuantificadores con un libro de códigos de 2048 entradas. En la prueba limpia de LibriSpeech, alcanza PESQ de banda ancha 3.21, STOI 0.96 y UTMOS 4.16, superando a SpeechTokenizer, XCodec, Mimi, FireredTTS 2 y otros tokenizadores semánticos recientes, mientras usa una velocidad de fotogramas similar o inferior.

El tokenizador se implementa como un decodificador de transmisión de contexto izquierdo puro, por lo que puede emitir formas de onda tan pronto como haya suficientes tokens disponibles. Con 4 tokens por paquete, cada paquete de transmisión transporta 320 ms de audio. El decodificador sin DiT y el diseño gratuito de BigVGAN reducen el costo de decodificación y simplifican el procesamiento por lotes.

En lo que respecta al modelo de lenguaje, el equipo de investigación informa mediciones de transmisión de un extremo a otro en un único backend vLLM con optimizaciones de torch.compile y CUDA Graph. Para Qwen3-TTS-12Hz-0.6B-Base y Qwen3-TTS-12Hz-1.7B-Base en simultaneidad 1, la latencia del primer paquete es de alrededor de 97 ms y 101 ms, con factores de tiempo real de 0,288 y 0,313 respectivamente. Incluso en la simultaneidad 6, la latencia del primer paquete se mantiene en torno a 299 ms y 333 ms.

https://arxiv.org/pdf/2601.15621v1

Alineación y control

La capacitación posterior utiliza un proceso de alineación por etapas. En primer lugar, la optimización directa de preferencias alinea el habla generada con las preferencias humanas en datos multilingües. Entonces GSPO con recompensas basadas en reglas mejora la estabilidad y la prosodia. Una etapa final de ajuste de los hablantes en el modelo Base produce variantes de los hablantes objetivo y al mismo tiempo preserva las capacidades centrales del modelo general.

El seguimiento de instrucciones se implementa en un formato de estilo ChatML, donde las instrucciones de texto sobre estilo, emoción o tempo se anteponen a la entrada. Esta misma interfaz impulsa VoiceDesign, indicaciones de estilo CustomVoice y ediciones detalladas para altavoces clonados.

Puntos de referencia, clonación de disparo cero y habla multilingüe

En el conjunto de pruebas de Seed-TTS, Qwen3-TTS se evalúa como un sistema de clonación de voz de disparo cero. El modelo Qwen3-TTS-12Hz-1.7B-Base alcanza una tasa de error de palabras de 0,77 en test-zh y 1,24 en test-en. El equipo de investigación destaca el WER 1,24 en el test-en como el más moderno entre los sistemas comparados, mientras que el WER chino está cerca, pero no por debajo, de la mejor puntuación de CosyVoice 3.

https://arxiv.org/pdf/2601.15621v1

En un conjunto de pruebas TTS multilingüe que cubre 10 idiomas, Qwen3-TTS logra el WER más bajo en 6 idiomas (chino, inglés, italiano, francés, coreano y ruso) y un rendimiento competitivo en los 4 idiomas restantes, al mismo tiempo que obtiene la mayor similitud de hablantes en los 10 idiomas en comparación con MiniMax-Speech y ElevenLabs Multilingual v2.

Las evaluaciones multilingües muestran que Qwen3-TTS-12Hz-1.7B-Base reduce la tasa de error mixto para varios pares de idiomas, como zh-to-ko, donde el error cae de 14,4 para CosyVoice3 a 4,82, aproximadamente una reducción relativa del 66 por ciento.

En InstructTTSEval, el modelo Qwen3TTS-12Hz-1.7B-VD VoiceDesign establece puntajes de última generación entre los modelos de código abierto en descripción-consistencia del habla y precisión de respuesta tanto en chino como en inglés, y es competitivo con sistemas comerciales como Hume y Gemini en varias métricas.

Conclusiones clave

Pila TTS multilingüe de código abierto completa: Qwen3-TTS es una suite con licencia Apache 2.0 que cubre 3 tareas en una pila, TTS de alta calidad, clonación de voz de 3 segundos y diseño de voz basado en instrucciones en 10 idiomas utilizando la familia de tokenizadores de 12 Hz. Códec discreto eficiente y transmisión en tiempo real: Qwen3-TTS-Tokenizer-12Hz utiliza 16 libros de códigos a 12,5 cuadros por segundo, alcanza puntajes PESQ, STOI y UTMOS sólidos y admite transmisión en paquetes con aproximadamente 320 ms de audio por paquete y una latencia del primer paquete inferior a 120 ms para los modelos 0.6B y 1.7B en la configuración informada. Variantes de modelos específicos de tareas: el lanzamiento ofrece modelos Base para clonación y TTS genérico, modelos CustomVoice con 9 parlantes predefinidos e indicaciones de estilo, y un modelo VoiceDesign que genera nuevas voces directamente a partir de descripciones en lenguaje natural que luego pueden ser reutilizadas por el modelo Base. Fuerte alineación y calidad multilingüe: un proceso de alineación de múltiples etapas con DPO, GSPO y ajuste fino de los hablantes brinda a Qwen3-TTS bajas tasas de error de palabras y una alta similitud de los hablantes, con el WER más bajo en 6 de 10 idiomas y la mejor similitud de los hablantes en los 10 idiomas entre los sistemas evaluados, y clonación de inglés de última generación en Seed TTS.

Consulte los pesos del modelo, el repositorio y el área de juegos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.