Toucan TTS: una caja de herramientas avanzada de conversión de texto a voz con licencia del MIT con síntesis de voz en más de 7000 idiomas

En una investigación reciente, el Instituto para el Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart, Alemania, presentó ToucanTTS, lo que supone un avance significativo en el campo de la tecnología de conversión de texto a voz (TTS). Con soporte para síntesis de voz en más de 7000 idiomas, este nuevo conjunto de herramientas es capaz de transformar completamente el campo de los sistemas TTS multilingües.

ToucanTTS es una caja de herramientas TTS avanzada mediante la cual se pueden enseñar, entrenar y utilizar modelos modernos de síntesis de voz. Dado que PyTorch y Python son los únicos lenguajes de programación utilizados en su desarrollo, es altamente funcional y eficaz, pero accesible y adecuado para principiantes. El conjunto de herramientas destaca especialmente por su amplio soporte lingüístico, que satisface las necesidades de una amplia gama de audiencias internacionales.

ToucanTTS es el modelo TTS más multilingüe disponible y se distingue por su capacidad de sintetizar voz en más de 7.000 idiomas. Facilita la síntesis de voz de varios hablantes, lo que permite a los usuarios imitar el ritmo, el acento y la entonación de varios hablantes. Esta funcionalidad es especialmente útil para aplicaciones que exigen diversidad estilística y personalización de voz.

Se ha incluido en el kit de herramientas la funcionalidad de edición Human-in-The-Loop, que es particularmente útil para estudios literarios y tareas de lectura de poesía. Con el uso de esta función, los usuarios pueden personalizar el discurso sintetizado para adaptarlo a sus propios requisitos y gustos. ToucanTTS ha ofrecido demostraciones interactivas para una variedad de aplicaciones, como diseño de voz, clonación de estilos, síntesis de voz multilingüe y lectura de poesía editada por humanos. Estos ejemplos muestran la versatilidad y solidez del conjunto de herramientas, lo que acelera la comprensión y utilización de sus capacidades por parte de los usuarios.

ToucanTTS se ha construido sobre la arquitectura FastSpeech 2 en su núcleo, con ciertas mejoras, incluida una PostNet basada en flujo de normalización inspirada en PortaSpeech. Este diseño garantiza una síntesis de voz de alta calidad y sonido natural. También se ha incluido en el conjunto de herramientas un alineador autónomo entrenado con clasificación temporal conexionista (CTC) y reconstrucción de espectrograma para diversos usos.

El uso de representaciones articulatorias de fonemas como entrada es una de las características más singulares de ToucanTTS. Este método mejora enormemente la calidad y usabilidad de la síntesis de voz para idiomas de bajos recursos al permitir que el sistema aproveche los datos multilingües.

En conclusión, ToucanTTS es un avance notable en la tecnología de conversión de texto a voz. Su diseño fácil de usar y su amplia gama de soporte lingüístico lo hacen muy beneficioso para educadores, investigadores y desarrolladores. Las características de ToucanTTS y su naturaleza de código abierto garantizan que será esencial para avanzar y democratizar la tecnología de síntesis de voz.

Revisar la Conjunto de datos, GitHuby Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

[Announcing Gretel Navigator] Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto en el que confían EY, Databricks, Google y Microsoft.

Toucan TTS: una caja de herramientas avanzada de conversión de texto a voz con licencia del MIT con síntesis de voz en más de 7000 idiomas

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Tutorial de Microsoft Fara: ejecute un agente de uso del navegador en Google Colab con un punto final simulado compatible con OpenAI

NVIDIA lanza Nemotron 3.5 ASR: un modelo de transmisión con reconocimiento de caché de 600 M de parámetros que transcribe 40 idiomas locales en tiempo real

¿Quién ganará la Copa Mundial de Fútbol de 2026?

You missed

Los legisladores exigen respuestas después de que la Casa Blanca iniciara un préstamo de 620 millones de dólares a una empresa vinculada a Donald Trump Jr.

Summer Walker aborda la interacción viral de los fanáticos, los fanáticos reaccionan

Tutorial de Microsoft Fara: ejecute un agente de uso del navegador en Google Colab con un punto final simulado compatible con OpenAI

Cómo los directores de fotografía de ‘Spider-Noir’ capturaron el multiverso en True-Hue Full Color y Authentic Black & White (entrevista)