Este artículo sobre IA de NVIDIA presenta 'Incremental FastPitch': revolucionando la síntesis de voz en tiempo real con menor latencia y alta calidad

Los modelos paralelos de texto a voz (TTS) se utilizan comúnmente para la síntesis de voz sobre la marcha, lo que proporciona un control mejorado y una síntesis más rápida que los modelos autorregresivos tradicionales. A pesar de sus ventajas, los modelos paralelos, particularmente aquellos basados en arquitectura de transformador, enfrentan desafíos con respecto a la síntesis incremental. Esta limitación surge de su estructura totalmente paralela. La creciente prevalencia de aplicaciones de streaming y en tiempo real ha estimulado la necesidad de sistemas TTS que puedan generar voz de forma incremental, satisfaciendo la demanda de TTS en streaming. Esta adaptación es crucial para lograr una menor latencia de respuesta y mejorar la experiencia del usuario.

Los investigadores de NVIDIA Corporation proponen Incremental FastPitch, una variante de FastPitch, que puede producir de forma incremental fragmentos Mel de alta calidad con menor latencia para la síntesis de voz en tiempo real. El modelo propuesto mejora la arquitectura con bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos de campo receptivo restringido e inferencia con estados del modelo anterior de tamaño fijo. Esto da como resultado una calidad de voz comparable a la de FastPitch paralelo pero una latencia significativamente menor. Emplea entrenamiento con campos receptivos restringidos y explora el uso de máscaras de fragmentos tanto estáticas como dinámicas. Esta exploración es crucial para garantizar que el modelo se alinee efectivamente con la inferencia de campo receptivo limitado durante la síntesis.

https://arxiv.org/abs/2401.01755

Un sistema Neural TTS normalmente consta de dos componentes principales: un modelo acústico y un vocodificador. El proceso comienza con la conversión de texto en espectrogramas Mel utilizando modelos acústicos como Tacotron 2, FastSpeech, FastPitch y GlowTTS. Posteriormente, las características de Mel se transforman en formas de onda utilizando codificadores de voz como WaveNet, WaveRNN, WaveGlow y HiF-GAN. El estudio también menciona el uso del Corpus de habla mandarín estándar chino para capacitación y evaluación, que contiene 10.000 clips de audio de una sola hablante de mandarín. Los parámetros del modelo propuesto siguen la implementación FastPitch de código abierto, con modificaciones en el decodificador que utilizan convolución causal en las capas de avance de posición.

Incremental FastPitch es una variante de FastPitch que incorpora bloques FFT basados en fragmentos en el decodificador para permitir la síntesis incremental de fragmentos Mel de alta calidad. El modelo se entrena utilizando máscaras de atención de fragmentos de campo receptivo restringido, que ayudan al decodificador a ajustarse al campo receptivo limitado en inferencia incremental. El modelo propuesto también utiliza estados del modelo pasado de tamaño fijo durante la inferencia para mantener la continuidad de Mel en todos los fragmentos. El corpus de habla mandarín estándar chino entrena y evalúa el modelo. Los parámetros del modelo siguen la implementación FastPitch de código abierto, utilizando convolución causal en las capas de avance de posición. El espectrograma Mel se genera a través de un tamaño FFT de 1024, una longitud de salto de 256 y una longitud de ventana de 1024, aplicados a la forma de onda normalizada.

Los resultados experimentales muestran que Incremental FastPitch puede producir una calidad de voz comparable a la de FastPitch paralelo, con una latencia significativamente menor, lo que lo hace adecuado para aplicaciones de voz en tiempo real. El modelo propuesto incorpora bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos de campo receptivo restringido e inferencia con estados anteriores del modelo de tamaño fijo, lo que contribuye a mejorar el rendimiento. Un estudio de ablación visualizada demuestra que FastPitch incremental puede generar espectrogramas Mel casi sin diferencias observables en comparación con FastPitch paralelo, lo que destaca la eficacia del modelo propuesto.

En conclusión, The Incremental FastPitch, una variante de FastPitch, permite la síntesis incremental de fragmentos Mel de alta calidad con baja latencia para aplicaciones de voz en tiempo real. El modelo propuesto incorpora bloques FFT basados en fragmentos, entrenamiento con máscaras de atención de fragmentos restringidos en campos receptivos e inferencia con estados pasados del modelo de tamaño fijo, lo que da como resultado una calidad de voz comparable a FastPitch paralelo pero con una latencia significativamente menor. Un estudio de ablación visualizado muestra que Incremental FastPitch puede generar espectrogramas Mel casi sin diferencias observables en comparación con FastPitch paralelo, lo que destaca la efectividad del modelo propuesto. Los parámetros del modelo siguen la implementación FastPitch de código abierto, con modificaciones en el decodificador que utilizan convolución causal en las capas de avance de posición. Incremental FastPitch ofrece un proceso de síntesis de voz más rápido y controlable, lo que lo convierte en un enfoque prometedor para aplicaciones en tiempo real.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

[Partnership and Promotion on Marktechpost] 🐝 Ahora puede asociarse con Marktechpost para promocionar su artículo de investigación, Github Repo e incluso agregar su comentario profesional en cualquier artículo de investigación de tendencia en marktechpost.com. Aumente la visibilidad de su investigación de IA y la de su empresa en la comunidad tecnológica… Obtenga más información

Este artículo sobre IA de NVIDIA presenta ‘Incremental FastPitch’: revolucionando la síntesis de voz en tiempo real con menor latencia y alta calidad

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Estudio: Las empresas suelen utilizar la automatización para controlar los salarios de determinados trabajadores | Noticias del MIT

Más allá de las listas: uso de Python Deque para ventanas deslizantes en tiempo real

Presentamos la optimización de la calidad del agente en AgentCore, ahora en versión preliminar

You missed

Estados Unidos debe esperar que Trump no sea un nuevo Calígula

Nueva amenaza de huelga en el aeropuerto de Palma

Presupuesto de KHxRK: Rajinikanth, ¿los enormes honorarios de Kamal Haasan con el director Nelson Dilipkumar costarán a los productores 500 millones de rupias?

Estudio: Las empresas suelen utilizar la automatización para controlar los salarios de determinados trabajadores | Noticias del MIT