Google AI lanza WAXAL: un conjunto de datos de voz africanos multilingües para entrenar modelos de reconocimiento automático de voz y conversión de texto a voz

La tecnología del habla todavía tiene un problema de distribución de datos. Los sistemas de reconocimiento automático de voz (ASR) y texto a voz (TTS) han mejorado rápidamente para los idiomas con altos recursos, pero muchos idiomas africanos siguen estando mal representados en los corpus abiertos. Un equipo de investigadores de Google y otros colaboradores presentan WAXAL, un conjunto de datos de habla multilingüe abierto para idiomas africanos que cubre 24 idiomas, con un componente ASR creado a partir de voz natural transcrita y un componente TTS creado a partir de grabaciones de un solo hablante con calidad de estudio.

WAXAL está estructurado como dos recursos separados porque ASR y TTS tienen diferentes requisitos de datos. El lado ASR está diseñado en torno a diversos hablantes, entornos naturales y producción lingüística espontánea. El lado TTS está diseñado en torno a condiciones de grabación controladas, guiones fonéticamente equilibrados y un audio más limpio de un solo altavoz adecuado para síntesis. Esa separación es técnicamente importante: un conjunto de datos que es útil para un reconocimiento sólido en entornos ruidosos del mundo real generalmente no es el mismo conjunto de datos que produce modelos TTS potentes con un solo altavoz.

https://arxiv.org/pdf/2602.02734

Cómo se recopilaron los datos del ASR

La parte ASR de WAXAL se recopiló mediante voz impulsada por imágenes. A los oradores se les mostraron imágenes y se les pidió que describieran lo que vieron en su idioma nativo, lo cual es una configuración más natural que una simple lectura guiada. Las grabaciones se capturaron en los entornos naturales de los hablantes, cada una con una duración mínima de 15 segundos. El proceso de recopilación también rastreó metadatos como la edad del hablante, el género, el idioma y el entorno de grabación. Solo se transcribió un subconjunto del audio completo recopilado: el equipo de investigación afirma que la versión actual de ASR incluye transcripciones de aproximadamente el 10% del audio total grabado. Esas transcripciones fueron producidas por expertos lingüísticos locales pagados, utilizando escrituras locales cuando estaban disponibles y transliteración del alfabeto inglés en caso contrario.

Esto es importante para cualquiera que construya sistemas ASR multilingües. El habla impulsada por imágenes tiende a capturar variaciones léxicas y sintácticas más naturales que la lectura estrictamente escrita, pero también dificulta la transcripción y aumenta la variación entre hablantes, dominios y condiciones acústicas. WAXAL se apoya en esa compensación en lugar de evitarla. El resultado no es un conjunto de datos de referencia perfectamente limpio; está más cerca de datos ASR multilingües recopilados en campo con una variabilidad real incorporada.

Cómo se recopilaron los datos de TTS

El lado TTS de WAXAL se construyó de manera muy diferente. El conjunto de datos TTS fue diseñado para voces sintéticas de un solo hablante de alta calidad. Para cada idioma de destino, el equipo de investigación creó una escritura fonéticamente equilibrada de aproximadamente 108.500 palabras. Contrataron a 72 participantes de la comunidad, divididos equitativamente entre actores de doblaje masculinos y femeninos, y los grabaron en entornos profesionales similares a estudios para reducir el ruido de fondo y preservar la fidelidad del audio. El objetivo era aproximadamente 16 horas de audio editado limpio por actor de doblaje.

Esta es la elección de diseño correcta para la síntesis. Los modelos TTS se preocupan mucho más por la coherencia en la pronunciación, las condiciones de grabación, la calidad del micrófono y la identidad del hablante que los sistemas ASR. Por lo tanto, WAXAL evita el error común de tratar los ‘datos de voz’ como una sola categoría, cuando en la práctica los canales ASR y TTS quieren señales de supervisión muy diferentes.

Conclusiones clave

WAXAL es un corpus de habla multilingüe abierto creado para ASR y TTS en lenguas africanas de bajos recursos. Los datos ASR utilizan voz natural generada por imágenes recopilada en entornos del mundo real. Los datos de TTS utilizan grabaciones de un solo hablante con calidad de estudio y guiones fonéticamente equilibrados.

Consulte el documento y el conjunto de datos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.