Screenshot 2023 11 15 At 6.04.15 Am.png

En el aprendizaje automático, un modelo de difusión es un modelo generativo comúnmente utilizado para tareas de generación de imágenes y audio. El modelo de difusión utiliza un proceso de difusión, transformando una distribución de datos compleja en distribuciones más simples. La ventaja clave radica en su capacidad para generar resultados de alta calidad, particularmente en tareas como síntesis de imágenes y audio.

En el contexto de los sistemas de texto a voz (TTS), la aplicación de modelos de difusión ha revelado mejoras notables en comparación con los sistemas TTS tradicionales. Este progreso se debe a su poder para abordar los problemas que enfrentan los sistemas existentes, como la gran dependencia de la calidad de las funciones intermedias y la complejidad asociada con los procedimientos de implementación, capacitación y configuración.

Un equipo de investigadores de Google ha formulado E3 TTS: Texto a voz fácil basado en difusión de extremo a extremo. Este modelo de texto a voz se basa en el proceso de difusión para mantener la estructura temporal. Este enfoque permite que el modelo tome texto sin formato como entrada y produzca directamente formas de onda de audio.

El modelo E3 TTS procesa eficientemente el texto de entrada de forma no autorregresiva, lo que le permite generar una forma de onda directamente sin requerir procesamiento secuencial. Además, la determinación de la identidad y el alineamiento del hablante ocurre dinámicamente durante la difusión. Este modelo consta de dos módulos principales: se emplea un modelo BERT previamente entrenado para extraer información pertinente del texto de entrada y un modelo UNet de difusión procesa la salida de BERT. Refina de forma iterativa la forma de onda ruidosa inicial y, en última instancia, predice la forma de onda sin procesar final.

El E3 TTS emplea un proceso de refinamiento iterativo para generar una forma de onda de audio. Modela la estructura temporal de la forma de onda mediante el proceso de difusión, lo que permite estructuras latentes flexibles dentro del audio dado sin la necesidad de información de acondicionamiento adicional.

Está construido sobre un modelo BERT previamente entrenado. Además, el sistema funciona sin depender de representaciones del habla como fonemas o grafemas. El modelo BERT toma entradas de subpalabras y su salida se procesa mediante una estructura 1D U-Net. Incluye bloques de muestreo hacia abajo y hacia arriba conectados por conexiones residuales.

E3 TTS utiliza representaciones de texto del modelo BERT previamente entrenado, aprovechando los desarrollos actuales en grandes modelos de lenguaje. El E3 TTS se basa en un modelo de lenguaje de texto previamente entrenado, lo que agiliza el proceso de generación.

La adaptabilidad del sistema aumenta ya que este modelo se puede entrenar en muchos idiomas mediante la entrada de texto.

La estructura U-Net empleada en E3 TTS comprende una serie de bloques de muestreo hacia abajo y hacia arriba conectados por conexiones residuales. Para mejorar la extracción de información de la salida BERT, se incorpora atención cruzada en los bloques superiores de muestreo hacia abajo y hacia arriba. En los bloques inferiores se utiliza un núcleo de red neuronal convolucional (CNN) softmax adaptativo, cuyo tamaño de núcleo está determinado por el paso de tiempo y el hablante. Las incrustaciones de altavoces y pasos de tiempo se combinan mediante la modulación lineal por características (FiLM), que incluye una capa compuesta para escalado por canales y predicción de sesgo.

El downsampler en E3 TTS desempeña un papel fundamental en el refinamiento de la información ruidosa, convirtiéndola de 24 kHz a una secuencia de longitud similar a la salida BERT codificada, mejorando significativamente la calidad general. Por el contrario, el upsampler predice ruido con la misma longitud que la forma de onda de entrada.

En resumen, E3 TTS demuestra la capacidad de generar audio de alta fidelidad, acercándose a un nivel de calidad notable en este campo.


Revisar la Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.