Investigadores de la Universidad de Corea han desarrollado un nuevo sintetizador de voz llamado HierSpeech++. Esta investigación tiene como objetivo crear un discurso sintético que sea robusto, expresivo, natural y parecido al humano. El equipo pretendía lograr esto sin depender de un conjunto de datos emparejados texto-voz y mejorar las deficiencias de los modelos existentes. HierSpeech++ fue diseñado para cerrar la brecha de representación semántica y acústica en la síntesis de voz y, en última instancia, mejorar la adaptación del estilo.
Hasta ahora, la síntesis de voz zero-shot basada en LLM ha tenido limitaciones. Sin embargo, HierSpeech++ se ha desarrollado para abordar estas limitaciones y mejorar la solidez y la expresividad, al mismo tiempo que aborda problemas relacionados con la velocidad de inferencia lenta. Al utilizar un marco de texto a vec que genera voz autosupervisada y representaciones F0 basadas en mensajes de texto y prosodia, se ha demostrado que HierSpeech++ supera a los modelos basados en LLM y en difusión. Estos avances en velocidad, solidez y calidad establecen a HierSpeech++ como un potente sintetizador de voz de disparo cero.
HierSpeech++ utiliza un marco jerárquico para generar voz sin formación previa. Emplea un marco de texto a vec para desarrollar direcciones autosupervisadas y representaciones F0 basadas en mensajes de texto y prosodia. El habla se produce utilizando un codificador automático variacional jerárquico y un vector generado, F0 y un mensaje de voz. El método también incluye un marco de superresolución de voz eficiente. La evaluación integral utiliza varios modelos e implementaciones previamente entrenados con métricas objetivas y subjetivas, como distancia de error Mel en escala logarítmica, evaluación perceptual de la calidad del habla, tono, periodicidad, puntuación F1 de voz/no voz, naturalidad, puntuación de opinión media y similitud de voz MOS. .
HierSpeech++ logra una naturalidad superior en el habla sintética en escenarios de disparo cero, con mejoras en robustez, expresividad y similitud del hablante. Se utilizaron métricas subjetivas como la puntuación de opinión media de naturalidad y la similitud de voz MOS para evaluar la inocencia del discurso, y los resultados mostraron que HierSpeech++ supera al discurso de verdad fundamental. La incorporación de un marco de superresolución de voz de 16 kHz a 48 kHz mejoró aún más la naturalidad de la dirección. Los resultados experimentales también demostraron que el codificador automático variacional jerárquico en HierSpeech++ es superior a los modelos basados en LLM y en difusión, lo que lo convierte en un sintetizador de voz robusto y de disparo cero. También se descubrió que la síntesis de texto a voz de disparo cero con indicaciones ruidosas validaba la eficacia de HierSpeech++ para generar voz a partir de hablantes invisibles. El marco de síntesis jerárquico también permite una transferencia versátil de estilos de voz y prosodia, lo que hace que el habla sintetizada sea aún más flexible.
En conclusión, HierSpeech presenta un marco eficiente y potente para lograr una calidad de nivel humano en la síntesis de voz zero-shot. Su desenredado del modelado semántico, la síntesis del habla, la superresolución y la facilitación de la prosodia y la transferencia de estilos de voz mejoran la flexibilidad del habla sintetizada. El sistema demuestra mejoras en robustez, expresividad, naturalidad y similitud de los hablantes incluso con un conjunto de datos a pequeña escala y ofrece velocidades de inferencia significativamente más rápidas. El estudio también explora posibles extensiones a modelos de síntesis de voz multilingües y controlables por emociones.
Revisar la Papel, Proyecto y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.