HuggingFace lanza Parler-TTS: una biblioteca de inferencia y capacitación para modelos de texto a voz (TTS) controlables y de alta calidad

El campo de la inteligencia artificial está avanzando rápidamente y se han producido mejoras significativas en la tecnología de conversión de texto a voz (TTS). Parler-TTS es una nueva biblioteca de capacitación e inferencia de código abierto que ha sido diseñada para fomentar la innovación en modelos TTS controlables y de alta calidad. Desarrollado teniendo en cuenta consideraciones éticas, Parler-TTS está estableciendo un nuevo estándar para las tecnologías de síntesis de voz al proporcionar un marco que prioriza el uso de datos basado en permisos y mecanismos de control de voz simples pero efectivos.

Parler-TTS se distingue de los modelos TTS convencionales al abordar las preocupaciones éticas que rodean la clonación de voz. En lugar de depender de métodos de clonación de voz potencialmente intrusivos, Parler-TTS logra el control de voz a través de indicaciones de texto sencillas, lo que garantiza que el discurso generado cumpla con las pautas éticas. Este enfoque no sólo mitiga los problemas de privacidad y consentimiento, sino que también abre nuevas posibilidades para la generación de voz personalizable.

La primera versión de esta tecnología innovadora, Parler-TTS Mini v0.1, muestra el potencial de este enfoque. Parler-TTS Mini ha sido entrenado en un conjunto de datos completo, que consta de 10.000 horas de grabaciones de audiolibros. El sistema exhibe una capacidad excepcional para producir voz de alta calidad en diferentes estilos de habla, con requisitos mínimos de datos. Este éxito es el resultado de la utilización creativa de recursos de código abierto por parte del proyecto y su dedicación al avance de la investigación de TTS.

Parler-TTS’La arquitectura de MusicGen se basa en la arquitectura MusicGen, que consta de tres componentes principales. El primer componente es un codificador de texto que asigna descripciones de texto a representaciones de estado oculto. El segundo componente es un decodificador que genera tokens de audio basados en estas representaciones. El tercer componente es un códec de audio que se encarga de transformar estos tokens nuevamente en voz audible. En particular, Parler-TTS introduce modificaciones a este marco, incluida la integración de descripciones de texto en las capas de atención cruzada del decodificador y la adición de una capa de incrustación para procesar indicaciones de texto. Estos ajustes mejoran la capacidad del modelo para generar un discurso que suene natural y estilísticamente diverso.

Un hito importante en el recorrido del proyecto es la decisión de hacer que Parler-TTS sea completamente de código abierto. Los desarrolladores de Parler-TTS han puesto a disposición todos sus conjuntos de datos, scripts de preprocesamiento, códigos de entrenamiento y puntos de control de modelos bajo una licencia permisiva, alentando a la comunidad de investigación global a aprovechar su trabajo. Esta disponibilidad de código abierto fomenta la colaboración y el desarrollo de modelos TTS.

Las implicaciones de Parler-TTS para el futuro de la síntesis de voz y la tecnología de inteligencia artificial son profundas. Al priorizar las consideraciones éticas y aprovechar el poder de la colaboración de código abierto, Parler-TTS no solo está avanzando las capacidades técnicas de los modelos TTS sino que también está dando forma a la conversación sobre el uso responsable de la IA en la sociedad.

Conclusiones clave:

Marco ético: Parler-TTS aborda las preocupaciones éticas en la tecnología TTS al evitar métodos invasivos de clonación de voz, utilizar datos permisivos y permitir el control de voz a través de simples indicaciones de texto.
Innovación de código abierto: Al publicar todos los materiales relacionados bajo una licencia permisiva, Parler-TTS fomenta un entorno de colaboración e innovación abierta en la comunidad de investigación de TTS.
Datos mínimos, calidad máxima: A pesar de haber sido entrenado con conjuntos de datos relativamente pequeños, Parler-TTS Mini v0.1 es capaz de producir voz de alta fidelidad en varios estilos de habla, lo que demuestra la eficiencia y el potencial del modelo.
Avances arquitectónicos: Al incorporar elementos de la arquitectura MusicGen e introducir modificaciones novedosas, Parler-TTS ofrece un marco flexible y potente para generar un habla diversa y con sonido natural.
Participación de la comunidad: La naturaleza de código abierto de Parler-TTS alienta a la comunidad de investigación e inteligencia artificial a participar en el desarrollo y perfeccionamiento continuo de las tecnologías TTS, allanando el camino para aplicaciones más éticas e innovadoras en el campo.

Presentamos Parler-TTS: una biblioteca de inferencia y entrenamiento para modelos de texto a voz (TTS) controlables y de alta calidad 🗣️

Para impulsar el desarrollo de la investigación de TTS de código abierto, estamos utilizando todos los conjuntos de datos, el código de entrenamiento y nuestro primer punto de control de iteración: Parler-TTS Mini v0.1. pic.twitter.com/LSn8Dkexrm

-Sanchit Gandhi (@sanchitgandhi99) 10 de abril de 2024

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

HuggingFace lanza Parler-TTS: una biblioteca de inferencia y capacitación para modelos de texto a voz (TTS) controlables y de alta calidad

ByEquipo de 7 minutos

Conclusiones clave:

By Equipo de 7 minutos

Related Post

Pequeños datos, grandes mapas: entrenamiento de modelos de aprendizaje automático geoespaciales cuando las muestras son escasas

Creación de un motor de búsqueda semántico y un clasificador de estado abierto sobre el conjunto de datos ResearchMath-14k

PATH impulsará la formación en IA y las oportunidades profesionales para puestos de trabajo alineados con la industria | Noticias del MIT

You missed

Cómo el viaje de la elefanta rescatada Erika destaca el largo camino de la India hacia la rehabilitación de los elefantes cautivos

La colisión de la N-340 provoca el caos – Noticias del Diario Costa Tropical

Blog de chismes deportivos n.° 1 en el mundo

El gran atractor atrae la Vía Láctea a 1,3 millones de millas por hora: ¿qué significa esto para nuestra galaxia?