El aprendizaje autosupervisado (SSL) ha ampliado el alcance de las tecnologías de voz a muchos idiomas al minimizar la necesidad de datos etiquetados. Sin embargo, los modelos actuales solo admiten entre 100 y 150 de los más de 7000 idiomas del mundo. Esta limitación se debe en gran medida a la escasez de voz transcrita, ya que solo la mitad de estos idiomas tienen sistemas de escritura formales y aún menos tienen los recursos para generar los extensos datos anotados necesarios para el entrenamiento. Si bien los modelos SSL pueden operar con datos no etiquetados, generalmente cubren un rango estrecho de idiomas. Proyectos como MMS han ampliado la cobertura a más de 1000 idiomas, pero necesitan ayuda con el ruido de los datos y la falta de condiciones de grabación diversas.
Investigadores de la Universidad Carnegie Mellon, la Universidad Jiaotong de Shanghái y el Instituto Tecnológico Toyota de Chicago han desarrollado XEUS, un codificador multilingüe para el habla universal. XEUS se entrena con más de un millón de horas de datos de 4057 idiomas, lo que aumenta significativamente la cobertura lingüística de los modelos SSL. Esto incluye un nuevo corpus de 7413 horas de 4057 idiomas, que se publicará próximamente. XEUS incorpora un novedoso objetivo de desreverberación para una mayor robustez. Supera a los modelos de última generación en varios puntos de referencia, incluido ML-SUPERB. Para respaldar futuras investigaciones, los investigadores publicarán XEUS, su código, configuraciones de entrenamiento, puntos de control y registros de entrenamiento.
SSL ha avanzado en el procesamiento del habla al permitir que las redes neuronales aprendan de grandes cantidades de datos sin etiquetar, que luego se pueden ajustar para diversas tareas. Los modelos SSL multilingües pueden aprovechar el aprendizaje por transferencia entre idiomas, pero solo se pueden escalar para cubrir unos pocos idiomas. XEUS, sin embargo, se puede escalar a 4057 idiomas, superando a modelos como MMS de Meta. XEUS incluye un novedoso objetivo de desreverberación durante el entrenamiento para manejar el habla ruidosa y diversa. A diferencia de los modelos de última generación que a menudo utilizan conjuntos de datos cerrados y carecen de transparencia, XEUS es completamente abierto, con datos disponibles públicamente, código de entrenamiento y amplia documentación, lo que facilita una mayor investigación sobre SSL multilingüe a gran escala.
XEUS se entrena previamente con un vasto conjunto de datos de 1,081 millones de horas en 4057 idiomas, compilado a partir de 37 conjuntos de datos de habla pública y fuentes adicionales como Global Recordings Network, WikiTongues y Jesus Dramas. Los tipos de datos únicos mejoran su solidez, como el habla acentuada y el cambio de código. XEUS incorpora nuevos objetivos, incluida la desreverberación y la reducción de ruido, durante el entrenamiento. La arquitectura del modelo se basa en HuBERT, pero incluye mejoras como capas E-Branchformer y una función de pérdida simplificada. El entrenamiento en 64 GPU NVIDIA A100 utiliza técnicas de aumento avanzadas y abarca significativamente más datos que los modelos anteriores.
El modelo XEUS se evalúa en varias tareas posteriores para evaluar sus capacidades de representación acústica y multilingüe. Se destaca en tareas de habla multilingüe, superando a modelos de última generación como XLS-R, MMS y w2v-BERT en puntos de referencia como ML-SUPERB y FLEURS, especialmente en entornos lingüísticos de bajos recursos. Además, XEUS demuestra un sólido desempeño en la universalidad de tareas al igualar o superar a los modelos líderes en tareas solo en inglés como el reconocimiento de emociones y la diarización del hablante. En representación acústica, XEUS supera a modelos como WavLM y w2v-BERT en la generación de habla de alta calidad, lo que se evidencia a través de métricas como MOS y WER.
XEUS es un codificador de voz SSL robusto entrenado con más de 1 millón de horas de datos que abarcan 4057 idiomas, lo que demuestra un rendimiento superior en una amplia gama de tareas multilingües y de bajos recursos. La tarea de desreverberación de XEUS mejora su robustez y, a pesar de los datos limitados para muchos idiomas, sigue proporcionando resultados valiosos. XEUS promueve la investigación multilingüe al ofrecer acceso abierto a sus datos y modelos. Sin embargo, las consideraciones éticas son cruciales, especialmente en el manejo de datos de voz de comunidades indígenas y la prevención de usos indebidos, como la generación de deepfakes de audio. La integración de XEUS con plataformas accesibles tiene como objetivo democratizar el desarrollo de modelos de voz.
Revisar la Papel, Conjunto de datos, y ModeloTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios
Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.