Mejora del habla eficiente y adaptable a través de audiocoders y vocoders generativos previamente capacitados

Los avances recientes en la mejora del habla (SE) se han movido más allá de los métodos tradicionales de predicción de máscara o señal, y se convierten en modelos de audio previamente capacitados para características más ricas y transferibles. Estos modelos, como WAVLM, extraen incrustaciones de audio significativas que mejoran el rendimiento de SE. Algunos enfoques usan estos incrustaciones para predecir máscaras o combinarlas con datos espectrales para una mejor precisión. Otros exploran las técnicas generativas, utilizando vocoders neurales para reconstruir el discurso limpio directamente de incrustaciones ruidosas. Si bien son efectivos, estos métodos a menudo implican congelar modelos previamente capacitados o requieren un ajuste exhaustivo, lo que limita la adaptabilidad y aumenta los costos computacionales, lo que dificulta la transferencia a otras tareas.

Los investigadores de Milm Plus, Xiaomi Inc., presentan un método SE ligero y flexible que utiliza modelos previamente capacitados. Primero, los incrustaciones de audio se extraen del discurso ruidoso utilizando un audiocoder congelado. Luego, estos son limpiados por un pequeño codificador Denoise y pasan a un vocoder para generar un discurso limpio. A diferencia de los modelos específicos de la tarea, tanto el audiocoder como el vocoder se entrenan previamente por separado, lo que hace que el sistema sea adaptable a tareas como la deserberación o la separación. Los experimentos han demostrado que los modelos generativos superan a los discriminativos en términos de calidad del habla y fidelidad del altavoz. A pesar de su simplicidad, el sistema es altamente eficiente e incluso supera un modelo SE líder en las pruebas de escucha.

El sistema de mejora del habla propuesto se divide en tres componentes principales. Primero, el discurso ruidoso se pasa a través de un audiocoder previamente capacitado, que genera ruidosas integridades de audio. Un codificador Denoise luego refina estos incrustaciones para producir versiones de limpiador, que finalmente se convierten en el habla por un vocoder. Si bien el codificador y el vocoder de Denoise están entrenados por separado, ambos confían en el mismo audiocoder congelado y previamente entrenado. Durante el entrenamiento, el codificador Denoise minimiza la diferencia entre incrustaciones ruidosas y limpias, los cuales se generan en paralelo a partir de muestras de habla emparejadas, utilizando una pérdida media de error al cuadrado. Este codificador se construye utilizando una arquitectura VIT con activación estándar y capas de normalización.

Para el vocoder, la capacitación se realiza de manera auto-supervisada utilizando datos de habla limpia sola. El Vocoder aprende a reconstruir las formas de onda del habla a partir de incrustaciones de audio mediante la predicción de coeficientes espectrales de Fourier, que se convierten en audio a través de la transformación inversa de Fourier a corto plazo. Adopta una versión ligeramente modificada del marco Vocos, adaptada para acomodar a varios audiocoders. Se emplea una configuración de red adversaria generativa (GaN), donde el generador se basa en ConvNext, y los discriminadores incluyen tipos de múltiples períodos y de resolución múltiple. El entrenamiento también incorpora pérdidas adversas, de reconstrucción y de correspondencia. Es importante destacar que, a lo largo del proceso, el audiocoder permanece sin cambios, utilizando pesos de los modelos disponibles públicamente.

La evaluación demostró que los audiocodificadores generativos, como Dasheng, superaron consistentemente a los discriminativos. En el conjunto de datos DNS1, Dasheng logró un puntaje de similitud de altavoz de 0.881, mientras que WAVLM y Whisper obtuvieron 0.486 y 0.489, respectivamente. En términos de calidad del habla, las métricas no intrusivas como DNSMOS y NISQAV2 indicaron mejoras notables, incluso con codificadores de Denoise más pequeños. Por ejemplo, VIT3 alcanzó un DNSMOS de 4.03 y una puntuación NISQAV2 de 4.41. Las pruebas de escucha subjetiva que involucraron a 17 participantes mostraron que Dasheng produjo una puntuación de opinión media (MOS) de 3.87, superando los demuces en 3.11 y LMS en 2.98, destacando su fuerte rendimiento perceptivo.

En conclusión, el estudio presenta un sistema de mejora del habla práctico y adaptable que se basa en audiocoders generativos previamente capacitados y vocoders, evitando la necesidad de ajustar el modelo completo. Al denominar las integridades de audio utilizando un codificador ligero y reconstruir el discurso con un vocoder previamente capacitado, el sistema logra tanto la eficiencia computacional como el rendimiento fuerte. Las evaluaciones muestran que los audiocodificadores generativos superan significativamente a los discriminativos en términos de calidad del habla y fidelidad de los altavoces. El codificador Denoise Compact mantiene una alta calidad perceptiva incluso con menos parámetros. Las pruebas de escucha subjetivas confirman aún más que este método ofrece una mejor claridad perceptiva que un modelo de estado existente de última generación, destacando su efectividad y versatilidad.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. ¿Listo para conectarse con más de 1 millón de desarrolladores/investigadores/investigadores de AI? Vea cómo Nvidia, LG AI Research y las principales compañías de IA aprovechan a MarktechPost para llegar a su público objetivo [Learn More]


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.