Los modelos paralelos de texto a voz (TTS) se utilizan comúnmente para la síntesis de voz sobre la marcha, lo que proporciona un control mejorado y una síntesis más rápida que los modelos autorregresivos tradicionales. A pesar de sus ventajas, los modelos paralelos, particularmente aquellos basados en arquitectura de transformador, enfrentan desafíos con respecto a la síntesis incremental. Esta limitación surge de su estructura totalmente paralela. La creciente prevalencia de aplicaciones de streaming y en tiempo real ha estimulado la necesidad de sistemas TTS que puedan generar voz de forma incremental, satisfaciendo la demanda de TTS en streaming. Esta adaptación es crucial para lograr una menor latencia de respuesta y mejorar la experiencia del usuario.
Los investigadores de NVIDIA Corporation proponen Incremental FastPitch, una variante de FastPitch, que puede producir de forma incremental fragmentos Mel de alta calidad con menor latencia para la síntesis de voz en tiempo real. El modelo propuesto mejora la arquitectura con bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos de campo receptivo restringido e inferencia con estados del modelo anterior de tamaño fijo. Esto da como resultado una calidad de voz comparable a la de FastPitch paralelo pero una latencia significativamente menor. Emplea entrenamiento con campos receptivos restringidos y explora el uso de máscaras de fragmentos tanto estáticas como dinámicas. Esta exploración es crucial para garantizar que el modelo se alinee efectivamente con la inferencia de campo receptivo limitado durante la síntesis.
Un sistema Neural TTS normalmente consta de dos componentes principales: un modelo acústico y un vocodificador. El proceso comienza con la conversión de texto en espectrogramas Mel utilizando modelos acústicos como Tacotron 2, FastSpeech, FastPitch y GlowTTS. Posteriormente, las características de Mel se transforman en formas de onda utilizando codificadores de voz como WaveNet, WaveRNN, WaveGlow y HiF-GAN. El estudio también menciona el uso del Corpus de habla mandarín estándar chino para capacitación y evaluación, que contiene 10.000 clips de audio de una sola hablante de mandarín. Los parámetros del modelo propuesto siguen la implementación FastPitch de código abierto, con modificaciones en el decodificador que utilizan convolución causal en las capas de avance de posición.
Incremental FastPitch es una variante de FastPitch que incorpora bloques FFT basados en fragmentos en el decodificador para permitir la síntesis incremental de fragmentos Mel de alta calidad. El modelo se entrena utilizando máscaras de atención de fragmentos de campo receptivo restringido, que ayudan al decodificador a ajustarse al campo receptivo limitado en inferencia incremental. El modelo propuesto también utiliza estados del modelo pasado de tamaño fijo durante la inferencia para mantener la continuidad de Mel en todos los fragmentos. El corpus de habla mandarín estándar chino entrena y evalúa el modelo. Los parámetros del modelo siguen la implementación FastPitch de código abierto, utilizando convolución causal en las capas de avance de posición. El espectrograma Mel se genera a través de un tamaño FFT de 1024, una longitud de salto de 256 y una longitud de ventana de 1024, aplicados a la forma de onda normalizada.

Los resultados experimentales muestran que Incremental FastPitch puede producir una calidad de voz comparable a la de FastPitch paralelo, con una latencia significativamente menor, lo que lo hace adecuado para aplicaciones de voz en tiempo real. El modelo propuesto incorpora bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos de campo receptivo restringido e inferencia con estados anteriores del modelo de tamaño fijo, lo que contribuye a mejorar el rendimiento. Un estudio de ablación visualizada demuestra que FastPitch incremental puede generar espectrogramas Mel casi sin diferencias observables en comparación con FastPitch paralelo, lo que destaca la eficacia del modelo propuesto.
En conclusión, The Incremental FastPitch, una variante de FastPitch, permite la síntesis incremental de fragmentos Mel de alta calidad con baja latencia para aplicaciones de voz en tiempo real. El modelo propuesto incorpora bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos restringidos en campos receptivos e inferencia con estados pasados del modelo de tamaño fijo, lo que da como resultado una calidad de voz comparable a FastPitch paralelo pero con una latencia significativamente menor. Un estudio de ablación visualizado muestra que Incremental FastPitch puede generar espectrogramas Mel casi sin diferencias observables en comparación con FastPitch paralelo, lo que destaca la efectividad del modelo propuesto. Los parámetros del modelo siguen la implementación FastPitch de código abierto, con modificaciones en el decodificador que utilizan convolución causal en las capas de avance de posición. Incremental FastPitch ofrece un proceso de síntesis de voz más rápido y controlable, lo que lo convierte en un enfoque prometedor para aplicaciones en tiempo real.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.