¿Cómo superan los puentes de Schrodinger a los modelos de difusión en la síntesis de texto a voz (TTS)?

Con el creciente número de avances en Inteligencia Artificial, los campos del Procesamiento del Lenguaje Natural, la Generación del Lenguaje Natural y la Visión por Computadora han ganado gran popularidad recientemente, todo gracias a la introducción de los Modelos de Lenguaje Grande (LLM). Los modelos de difusión, que han demostrado ser exitosos en la producción de síntesis de texto a voz (TTS), han mostrado una gran calidad de generación. Sin embargo, su distribución previa se limita a una representación que introduce ruido y ofrece poca información sobre el objetivo de generación deseado.

En una investigación reciente, un equipo de investigadores de la Universidad de Tsinghua y Microsoft Research Asia introdujo un nuevo sistema de conversión de texto a voz llamado Bridge-TTS. Es el primer intento de sustituir una alternativa limpia y predecible al ruidoso previo gaussiano utilizado en enfoques TTS basados ​​en difusión bien establecidos. Este reemplazo previo proporciona información estructural sólida sobre el objetivo y se ha tomado de la representación latente extraída de la entrada de texto.

El equipo ha compartido que la principal contribución es el desarrollo de un puente de Schrodinger completamente manejable que conecta el espectrograma mel de verdad terrestre y el previo limpio. El puente-TTS sugerido utiliza un proceso de datos a datos, que mejora el contenido de información de la distribución anterior, en contraste con los modelos de difusión que funcionan a través de un proceso de datos a ruido.

El equipo evaluó el enfoque y, tras la evaluación, la eficacia del método sugerido se destacó mediante la validación experimental realizada en el conjunto de datos LJ-Speech. En configuraciones de síntesis de 50/1000 pasos, Bridge-TTS ha demostrado un mejor rendimiento que su homólogo de difusión, Grad-TTS. Incluso ha funcionado mejor en escenarios de pocos pasos que los modelos TTS potentes y rápidos. Se ha enfatizado que las principales fortalezas del enfoque Bridge-TTS son la calidad de la síntesis y la eficiencia del muestreo.

El equipo ha resumido las principales contribuciones de la siguiente manera.

  1. Los espectrogramas Mel se han producido a partir de una representación latente de texto no contaminado. A diferencia del procedimiento tradicional de conversión de datos a ruido, esta representación, que funciona como información de condición en el contexto de los modelos de difusión, se creó para estar libre de ruido. El puente de Schrodinger se ha utilizado para investigar un proceso de datos a datos.
  1. Para datos pareados, se ha propuesto un puente de Schrodinger totalmente manejable. Este puente utiliza una ecuación diferencial estocástica de referencia (SDE) en una forma flexible. Este método permite la investigación empírica de los espacios de diseño además de ofrecer una explicación teórica.
  1. Se ha estudiado cómo la técnica de muestreo, la parametrización del modelo y la programación del ruido contribuyen a mejorar la calidad del TTS. También se han implementado un programa de ruido asimétrico, predicción de datos y muestreadores de puentes de primer orden.
  1. La explicación teórica completa de los procesos subyacentes ha sido posible gracias al puente de Schrodinger, totalmente manejable. Se han llevado a cabo investigaciones empíricas para comprender cómo los diferentes elementos afectan la calidad de TTS, lo que incluye examinar los efectos de los programas de ruido asimétricos, las decisiones de parametrización del modelo y la eficiencia del proceso de muestreo.
  1. El método ha producido grandes resultados en términos de velocidad de inferencia y calidad de generación. El método Grad-TTS equivalente basado en difusión ha sido ampliamente superado en situaciones de generación de 1000 y 50 pasos. También superó a FastGrad-TTS en generación de 4 pasos, al modelo basado en transformador FastSpeech 2 y al enfoque de destilación de última generación CoMoSpeech en generación de 2 pasos.
  1. El método ha logrado resultados extraordinarios después de tan solo una sesión de entrenamiento. Esta eficiencia es visible en varias etapas del proceso de creación, lo que demuestra la confiabilidad y potencia del enfoque sugerido.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.