¿Cómo superan los puentes de Schrodinger a los modelos de difusión en la síntesis de texto a voz (TTS)?

Con el creciente número de avances en Inteligencia Artificial, los campos del Procesamiento del Lenguaje Natural, la Generación del Lenguaje Natural y la Visión por Computadora han ganado gran popularidad recientemente, todo gracias a la introducción de los Modelos de Lenguaje Grande (LLM). Los modelos de difusión, que han demostrado ser exitosos en la producción de síntesis de texto a voz (TTS), han mostrado una gran calidad de generación. Sin embargo, su distribución previa se limita a una representación que introduce ruido y ofrece poca información sobre el objetivo de generación deseado.

En una investigación reciente, un equipo de investigadores de la Universidad de Tsinghua y Microsoft Research Asia introdujo un nuevo sistema de conversión de texto a voz llamado Bridge-TTS. Es el primer intento de sustituir una alternativa limpia y predecible al ruidoso previo gaussiano utilizado en enfoques TTS basados en difusión bien establecidos. Este reemplazo previo proporciona información estructural sólida sobre el objetivo y se ha tomado de la representación latente extraída de la entrada de texto.

El equipo ha compartido que la principal contribución es el desarrollo de un puente de Schrodinger completamente manejable que conecta el espectrograma mel de verdad terrestre y el previo limpio. El puente-TTS sugerido utiliza un proceso de datos a datos, que mejora el contenido de información de la distribución anterior, en contraste con los modelos de difusión que funcionan a través de un proceso de datos a ruido.

El equipo evaluó el enfoque y, tras la evaluación, la eficacia del método sugerido se destacó mediante la validación experimental realizada en el conjunto de datos LJ-Speech. En configuraciones de síntesis de 50/1000 pasos, Bridge-TTS ha demostrado un mejor rendimiento que su homólogo de difusión, Grad-TTS. Incluso ha funcionado mejor en escenarios de pocos pasos que los modelos TTS potentes y rápidos. Se ha enfatizado que las principales fortalezas del enfoque Bridge-TTS son la calidad de la síntesis y la eficiencia del muestreo.

El equipo ha resumido las principales contribuciones de la siguiente manera.

Los espectrogramas Mel se han producido a partir de una representación latente de texto no contaminado. A diferencia del procedimiento tradicional de conversión de datos a ruido, esta representación, que funciona como información de condición en el contexto de los modelos de difusión, se creó para estar libre de ruido. El puente de Schrodinger se ha utilizado para investigar un proceso de datos a datos.

Para datos pareados, se ha propuesto un puente de Schrodinger totalmente manejable. Este puente utiliza una ecuación diferencial estocástica de referencia (SDE) en una forma flexible. Este método permite la investigación empírica de los espacios de diseño además de ofrecer una explicación teórica.

Se ha estudiado cómo la técnica de muestreo, la parametrización del modelo y la programación del ruido contribuyen a mejorar la calidad del TTS. También se han implementado un programa de ruido asimétrico, predicción de datos y muestreadores de puentes de primer orden.

La explicación teórica completa de los procesos subyacentes ha sido posible gracias al puente de Schrodinger, totalmente manejable. Se han llevado a cabo investigaciones empíricas para comprender cómo los diferentes elementos afectan la calidad de TTS, lo que incluye examinar los efectos de los programas de ruido asimétricos, las decisiones de parametrización del modelo y la eficiencia del proceso de muestreo.

El método ha producido grandes resultados en términos de velocidad de inferencia y calidad de generación. El método Grad-TTS equivalente basado en difusión ha sido ampliamente superado en situaciones de generación de 1000 y 50 pasos. También superó a FastGrad-TTS en generación de 4 pasos, al modelo basado en transformador FastSpeech 2 y al enfoque de destilación de última generación CoMoSpeech en generación de 2 pasos.

El método ha logrado resultados extraordinarios después de tan solo una sesión de entrenamiento. Esta eficiencia es visible en varias etapas del proceso de creación, lo que demuestra la confiabilidad y potencia del enfoque sugerido.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 [Free Webinar] LLM en banca: creación de análisis predictivos para aprobaciones de préstamos (13 de diciembre de 2023)

¿Cómo superan los puentes de Schrodinger a los modelos de difusión en la síntesis de texto a voz (TTS)?

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cómo crear un espacio de trabajo para agentes de QwenPaw con habilidades personalizadas, proveedores de modelos, acceso a la consola y pruebas de API de transmisión

Anthropic desactiva Claude Fable 5 y Mythos 5 después de una orden del gobierno de EE. UU.

¿Es el lenguaje visual? Un experimento con caracteres chinos

You missed

Los árboles siguen bebiendo la luz del sol después de dejar de crecer, y eso podría reducir el sumidero de carbono de los bosques

Los fondos para sobornos congelan el cerebro y solo los bichos raros religiosos pueden trabajar desde casa

Ryanair se enfrenta a una investigación por los cargos por asientos familiares – The Leader

Saif Ali Khan recuerda las sesiones fotográficas en Goa y su trabajo con Farhan Akhtar en Dil Chahta Hai