La síntesis de texto a voz (TTS) se centra en convertir texto en palabras habladas con un alto grado de naturalidad e inteligibilidad. Este campo se cruza con el procesamiento del lenguaje natural, el procesamiento de señales de voz y el aprendizaje automático. La tecnología TTS se ha vuelto integral en diversas aplicaciones, como asistentes virtuales, audiolibros y herramientas de accesibilidad, con el objetivo de crear sistemas que puedan generar voz indistinguible de la voz humana.
Un desafío importante en la síntesis TTS es lograr un habla de alta calidad y con sonido natural que pueda manejar diversas voces y acentos. Los métodos tradicionales de TTS a menudo necesitan ayuda con la variabilidad de las voces de los hablantes y requieren amplios datos de entrenamiento. Esta limitación dificulta la escalabilidad y flexibilidad de los sistemas TTS, particularmente en escenarios de aprendizaje de disparo cero donde el sistema debe generar voz para hablantes o idiomas invisibles sin datos de entrenamiento previo.
La investigación actual incluye enfoques TTS basados en redes neuronales, como modelos de secuencia a secuencia y codificadores automáticos variacionales. Utilizando el modelado de lenguaje de códec neuronal, VALL-E aprovecha códigos de códec discretos para tareas TTS. Otros trabajos incluyen Voicebox y Audiobox que utilizan métodos de coincidencia de flujo y NaturalSpeech 3 con modelos de difusión. Estos métodos mejoran la calidad y la variabilidad del habla, pero enfrentan desafíos de eficiencia y requisitos de datos, especialmente en escenarios de aprendizaje de disparo cero donde el modelo debe generar habla para hablantes o idiomas invisibles.
Investigadores de Microsoft han presentado VALL-E 2, un enfoque novedoso que aprovecha el modelado del lenguaje de códec neuronal inspirado en el éxito de los grandes modelos de lenguaje en el procesamiento de texto. Este método representa la voz como códigos de códec discretos y aborda el TTS como una tarea de modelado de lenguaje de códec condicional. VALL-E 2 incorpora dos mejoras clave: muestreo consciente de la repetición y modelado de código agrupado. Estas innovaciones tienen como objetivo mejorar las capacidades TTS de disparo cero utilizando una estructura de modelo versátil y eficiente.
VALL-E 2 utiliza un enfoque de dos etapas que involucra modelos autorregresivos (AR) y no autorregresivos (NAR). El modelo AR predice una secuencia de códigos códec utilizando muestreo de núcleos con técnicas de repetición, lo que garantiza estabilidad y diversidad en la salida de voz. El modelo NAR genera los códigos restantes, mejorando la eficiencia y la robustez. El muestreo consciente de la repetición emplea de forma adaptativa un muestreo aleatorio o de núcleo para cada predicción de token en función de la repetición del token en el historial de decodificación. El modelado de código agrupado divide los códigos de códec en grupos, cada uno modelado como un solo cuadro, lo que reduce la longitud de la secuencia y mejora el rendimiento.
Las evaluaciones de rendimiento de VALL-E 2 demuestran mejoras significativas en escenarios TTS de disparo cero. El modelo se entrenó en el conjunto de datos Libriheavy y se evaluó en los conjuntos de datos LibriSpeech y VCTK. Logró la paridad humana en cuanto a puntuaciones de robustez, naturalidad y similitud. En el conjunto de datos LibriSpeech, VALL-E 2 logró una tasa de error de palabras (WER) del 4,2 % para mensajes de 3 segundos y del 3,8 % para mensajes de 5 segundos, en comparación con el WER real del 4,5 %. La puntuación de similitud (SIM) para VALL-E 2 fue de 0,803 con un muestreo único y mejoró a 0,807 con un muestreo de cinco veces, lo que indica una síntesis del habla natural y altamente precisa. En el conjunto de datos VCTK, el modelo logró una puntuación de robustez de 0,3 y una puntuación de naturalidad de 4,47 para indicaciones de 3 segundos, lo que demuestra su rendimiento superior en diversos escenarios de oradores.
La metodología de VALL-E 2 es detallada y robusta. El modelo AR está entrenado para predecir la primera secuencia de código códec condicionada a la secuencia de texto de forma autorregresiva. El modelo NAR, por otro lado, predice códigos de códec posteriores basándose en la salida del modelo AR inicial, aprovechando el texto y las condiciones acústicas. Este enfoque de dos etapas garantiza estabilidad y eficiencia en la generación de voz de alta calidad. El método de muestreo consciente de la repetición mejora significativamente la estabilidad de la decodificación, mientras que el modelado de código agrupado aborda el problema del modelado de contexto largo al reducir la longitud de la secuencia y mejorar la eficiencia de la inferencia.
En conclusión, VALL-E 2 aborda desafíos críticos en la síntesis TTS mediante la introducción de un novedoso enfoque de modelado de lenguaje códec. Este método mejora las capacidades de aprendizaje de disparo cero, ofreciendo síntesis de voz natural y de alta calidad con mayor eficiencia y solidez. La investigación realizada por Microsoft marca un importante paso adelante en el desarrollo de sistemas TTS escalables y flexibles capaces de sintetizar voz para diversas aplicaciones. Los avances en VALL-E 2 podrían respaldar iniciativas como generar voz para personas con discapacidades del habla, mejorar asistentes virtuales y más.
sólo las primeras fichas.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.