Prueba de tiro MARS5El equipo de Camb AI ha lanzado un revolucionario sistema de conversión de texto a voz de código abierto. Este modelo innovador ofrece capacidades excepcionales de control prosódico y clonación de voz, y requiere menos de 5 segundos de entrada de audio. El sistema emplea una arquitectura de dos etapas que consta de un modelo autorregresivo (AR) de 750M y un modelo no autorregresivo (NAR) de 450M. MARS5 utiliza un tokenizador BPE, que permite un control preciso sobre la puntuación, las pausas y las paradas, avanzando así en el campo de la síntesis de voz.
La arquitectura del modelo sigue un proceso AR-NAR único de dos etapas. En la etapa inicial, un modelo de transformador autorregresivo genera características de voz codificadas gruesas (L0) a partir del texto de entrada y el audio de referencia. Posteriormente, estas características, junto con el texto y la referencia, se refinan utilizando un modelo probabilístico de difusión de eliminación de ruido (DDPM) multinomial para producir los valores restantes del libro de códigos codificados. Finalmente, un vocoder transforma la salida DDPM en el audio final.
El componente AR de MARS5 predice tokens gruesos L0, que luego son refinados aún más por el modelo NAR DDPM. Esta salida refinada es procesada por el vocoder para generar el audio final. El entrenamiento del modelo con audio sin procesar junto con texto codificado por pares de bytes permite un control matizado de la prosodia mediante puntuación y uso de mayúsculas. Por ejemplo, agregar comas introduce pausas, mientras que escribir palabras en mayúscula las enfatiza, proporcionando un método natural para guiar la prosodia del resultado generado.
En comparación con otros modelos de lenguaje líderes como GPT y Gemini, MARS5 se distingue por su enfoque especializado en la síntesis de texto a voz y su arquitectura AR-NAR única. Mientras que GPT y Gemini están diseñados principalmente para la generación y comprensión de texto, MARS5 está optimizado para producir salida de voz controlable y de alta calidad. Su uso de DDPM en la etapa NAR y la incorporación de control prosódico a través del formato de texto lo distinguen en la síntesis de voz.
MARS5 demuestra resultados impresionantes en clonación de voz y control prosódico. El sistema admite dos modos de inferencia: un “clon superficial” rápido que no requiere la transcripción del audio de referencia y un “clon profundo” más lento pero de mayor calidad que utiliza la transcripción rápida. Con solo 5 segundos de audio y un fragmento de texto, MARS5 puede generar voz para escenarios diversos y desafiantes, incluidos comentarios deportivos y locuciones de anime, mostrando su versatilidad y efectividad.
Para utilizar MARS5, se proporciona un archivo de audio de referencia de entre 2 y 12 segundos de duración, con muestras de 6 segundos que arrojan resultados óptimos. El sistema acepta entrada de texto con puntuación y mayúsculas para control prosódico. Los usuarios pueden realizar una “clon profunda” para mejorar la calidad proporcionando la transcripción del audio de referencia, aunque este proceso lleva más tiempo. La capacidad de MARS5 para manejar escenarios prosódicos complejos lo hace adecuado para diversas aplicaciones en entretenimiento, educación y accesibilidad.
MARS5 TTS representa un avance significativo en la tecnología de conversión de texto a voz de código abierto. Su arquitectura innovadora, que combina modelos AR y NAR con DDPM, permite un control sin precedentes sobre la síntesis de voz. La capacidad del sistema para clonar voces con una entrada mínima y generar un discurso prosódicamente rico y de alta calidad lo posiciona como una herramienta valiosa para desarrolladores e investigadores en el campo de la inteligencia artificial y la tecnología del habla.
Revisar la Modelo y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 45.000 ml
🚀 Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ¡ahora disponible de forma generalizada! [Advertisement]
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.