En una investigación reciente, el Instituto para el Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart, Alemania, presentó ToucanTTS, lo que supone un avance significativo en el campo de la tecnología de conversión de texto a voz (TTS). Con soporte para síntesis de voz en más de 7000 idiomas, este nuevo conjunto de herramientas es capaz de transformar completamente el campo de los sistemas TTS multilingües.
ToucanTTS es una caja de herramientas TTS avanzada mediante la cual se pueden enseñar, entrenar y utilizar modelos modernos de síntesis de voz. Dado que PyTorch y Python son los únicos lenguajes de programación utilizados en su desarrollo, es altamente funcional y eficaz, pero accesible y adecuado para principiantes. El conjunto de herramientas destaca especialmente por su amplio soporte lingüístico, que satisface las necesidades de una amplia gama de audiencias internacionales.
ToucanTTS es el modelo TTS más multilingüe disponible y se distingue por su capacidad de sintetizar voz en más de 7.000 idiomas. Facilita la síntesis de voz de varios hablantes, lo que permite a los usuarios imitar el ritmo, el acento y la entonación de varios hablantes. Esta funcionalidad es especialmente útil para aplicaciones que exigen diversidad estilística y personalización de voz.
Se ha incluido en el kit de herramientas la funcionalidad de edición Human-in-The-Loop, que es particularmente útil para estudios literarios y tareas de lectura de poesía. Con el uso de esta función, los usuarios pueden personalizar el discurso sintetizado para adaptarlo a sus propios requisitos y gustos. ToucanTTS ha ofrecido demostraciones interactivas para una variedad de aplicaciones, como diseño de voz, clonación de estilos, síntesis de voz multilingüe y lectura de poesía editada por humanos. Estos ejemplos muestran la versatilidad y solidez del conjunto de herramientas, lo que acelera la comprensión y utilización de sus capacidades por parte de los usuarios.
ToucanTTS se ha construido sobre la arquitectura FastSpeech 2 en su núcleo, con ciertas mejoras, incluida una PostNet basada en flujo de normalización inspirada en PortaSpeech. Este diseño garantiza una síntesis de voz de alta calidad y sonido natural. También se ha incluido en el conjunto de herramientas un alineador autónomo entrenado con clasificación temporal conexionista (CTC) y reconstrucción de espectrograma para diversos usos.
El uso de representaciones articulatorias de fonemas como entrada es una de las características más singulares de ToucanTTS. Este método mejora enormemente la calidad y usabilidad de la síntesis de voz para idiomas de bajos recursos al permitir que el sistema aproveche los datos multilingües.
En conclusión, ToucanTTS es un avance notable en la tecnología de conversión de texto a voz. Su diseño fácil de usar y su amplia gama de soporte lingüístico lo hacen muy beneficioso para educadores, investigadores y desarrolladores. Las características de ToucanTTS y su naturaleza de código abierto garantizan que será esencial para avanzar y democratizar la tecnología de síntesis de voz.
Revisar la Conjunto de datos, GitHuby Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 45.000 ml
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.