En los últimos años, la tecnología de texto a voz (TTS) ha logrado avances significativos, pero aún quedan numerosos desafíos por delante. Los sistemas autorregresivos (AR), si bien ofrecen una prosodia diversa, tienden a sufrir problemas de robustez y velocidades de inferencia lentas. Por otro lado, los modelos no autorregresivos (NAR) requieren una alineación explícita entre el texto y el habla durante el entrenamiento, lo que puede conducir a resultados poco naturales. El nuevo Masked Generative Codec Transformer (MaskGCT) aborda estos problemas al eliminar la necesidad de una alineación explícita de texto y voz y una predicción de la duración a nivel de teléfono. Este novedoso enfoque tiene como objetivo simplificar el proceso manteniendo o incluso mejorando la calidad y expresividad del habla generada.

MaskGCT es un nuevo modelo TTS de código abierto y de última generación disponible en Hugging Face. Aporta varias características interesantes, como la clonación de voz de disparo cero y TTS emocional, y puede sintetizar voz tanto en inglés como en chino. El modelo se entrenó en un extenso conjunto de datos de 100.000 horas de datos de voz en estado salvaje, lo que le permitió generar síntesis de formato largo y de velocidad variable. En particular, MaskGCT presenta una arquitectura totalmente no autorregresiva. Esto significa que el modelo no se basa en predicciones iterativas, lo que da como resultado tiempos de inferencia más rápidos y un proceso de síntesis simplificado. Con un enfoque de dos etapas, MaskGCT primero predice tokens semánticos a partir del texto y posteriormente genera tokens acústicos condicionados a esos tokens semánticos.

MaskGCT utiliza un marco de dos etapas que sigue un paradigma de «enmascarar y predecir». En la primera etapa, el modelo predice tokens semánticos basados ​​en el texto de entrada. Estos tokens semánticos se extraen de un modelo de aprendizaje autosupervisado (SSL) del habla. En la segunda etapa, el modelo predice tokens acústicos condicionados a los tokens semánticos generados previamente. Esta arquitectura permite a MaskGCT omitir por completo la alineación texto-voz y la predicción de la duración a nivel de fonemas, distinguiéndolo de los modelos NAR anteriores. Además, emplea un codificador automático variacional cuantificado vectorial (VQ-VAE) para cuantificar las representaciones de voz, lo que minimiza la pérdida de información. La arquitectura es muy flexible, permite la generación de voz con velocidad y duración controlables y admite aplicaciones como doblaje multilingüe, conversión de voz y control de emociones, todo ello en una configuración de disparo cero.

MaskGCT representa un importante avance en la tecnología TTS debido a su proceso simplificado, su enfoque no autorregresivo y su sólido rendimiento en múltiples idiomas y contextos emocionales. Su entrenamiento con 100.000 horas de datos de voz, que abarcan diversos hablantes y contextos, le otorga una versatilidad y naturalidad incomparables en el habla generada. Los resultados experimentales demuestran que MaskGCT logra naturalidad e inteligibilidad a nivel humano, superando a otros modelos TTS de última generación en métricas clave. Por ejemplo, MaskGCT logró puntuaciones superiores en similitud de hablantes (SIM-O) y tasa de error de palabras (WER) en comparación con otros modelos TTS como VALL-E, VoiceBox y NaturalSpeech 3. Estas métricas, junto con su prosodia y flexibilidad de alta calidad, hacen de MaskGCT una herramienta ideal para aplicaciones que requieren precisión y expresividad en la síntesis de voz.

MaskGCT traspasa los límites de lo que es posible en la tecnología de conversión de texto a voz. Al eliminar las dependencias de la alineación explícita del texto y la voz y la predicción de la duración y, en su lugar, utilizar un enfoque generativo enmascarado y totalmente no autorregresivo, MaskGCT logra un alto nivel de naturalidad, calidad y eficiencia. Su flexibilidad para manejar la clonación de voz, el contexto emocional y la síntesis bilingüe lo convierte en un elemento revolucionario para diversas aplicaciones, incluidos asistentes de inteligencia artificial, doblaje y herramientas de accesibilidad. Con su disponibilidad abierta en plataformas como Hugging Face, MaskGCT no solo está avanzando en el campo de TTS sino también haciendo que la tecnología de vanguardia sea más accesible para desarrolladores e investigadores de todo el mundo.


Mira el Papel y Modelo abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Por automata