Los sistemas de procesamiento del habla a menudo tienen dificultades para ofrecer un audio claro en entornos ruidosos. Este desafío afecta aplicaciones como audífonos, reconocimiento automático de voz (ASR) y verificación del hablante. Los sistemas de mejora del habla (SE) de un solo canal convencionales utilizan arquitecturas de redes neuronales como LSTM, CNN y GAN, pero no están exentas de limitaciones. Por ejemplo, los modelos basados ​​en la atención como los Conformers, si bien son potentes, requieren amplios recursos computacionales y grandes conjuntos de datos, lo que puede resultar poco práctico para determinadas aplicaciones. Estas limitaciones resaltan la necesidad de alternativas escalables y eficientes.

Presentamos xLSTM-SENet

Para abordar estos desafíos, investigadores de la Universidad de Aalborg y Oticon A/S desarrollaron xLSTM-SENet, el primer sistema SE de un solo canal basado en xLSTM. Este sistema se basa en la arquitectura de memoria extendida a corto plazo (xLSTM), que refina los modelos LSTM tradicionales mediante la introducción de puerta exponencial y memoria matricial. Estas mejoras resuelven algunas de las limitaciones de los LSTM estándar, como la capacidad de almacenamiento restringida y la paralelización limitada. Al integrar xLSTM en el marco MP-SENet, el nuevo sistema puede procesar de manera efectiva espectros de magnitud y fase, ofreciendo un enfoque simplificado para mejorar el habla.

Descripción técnica y ventajas

xLSTM-SENet está diseñado con una estructura codificador-decodificador de dominio de tiempo-frecuencia (TF). En esencia, se encuentran los bloques TF-xLSTM, que utilizan capas mLSTM para capturar dependencias tanto temporales como de frecuencia. A diferencia de los LSTM tradicionales, los mLSTM emplean puerta exponencial para un control de almacenamiento más preciso y un diseño de memoria basado en matriz para una mayor capacidad. La arquitectura bidireccional mejora aún más la capacidad del modelo para utilizar información contextual de marcos pasados ​​y futuros. Además, el sistema incluye decodificadores especializados para espectros de magnitud y fase, que contribuyen a mejorar la calidad e inteligibilidad del habla. Estas innovaciones hacen que xLSTM-SENet sea eficiente y adecuado para dispositivos con recursos computacionales limitados.

Rendimiento y hallazgos

Las evaluaciones que utilizan el conjunto de datos VoiceBank+DEMAND resaltan la eficacia de xLSTM-SENet. El sistema logra resultados comparables o mejores que modelos de última generación como SEMamba y MP-SENet. Por ejemplo, registró una puntuación de Evaluación Perceptual de la Calidad del Habla (PESQ) de 3,48 y una Inteligibilidad Objetiva a Corto Plazo (STOI) de 0,96. Además, métricas compuestas como CSIG, CBAK y COVL mostraron mejoras notables. Los estudios de ablación subrayaron la importancia de características como la puerta exponencial y la bidireccionalidad para mejorar el rendimiento. Si bien el sistema requiere tiempos de entrenamiento más prolongados que algunos modelos basados ​​en la atención, su rendimiento general demuestra su valor.

Conclusión

xLSTM-SENet ofrece una respuesta reflexiva a los desafíos en la mejora del habla en un solo canal. Al aprovechar las capacidades de la arquitectura xLSTM, el sistema equilibra la escalabilidad y la eficiencia con un rendimiento sólido. Este trabajo no sólo avanza el estado de la tecnología de mejora del habla, sino que también abre las puertas para su aplicación en escenarios del mundo real, como audífonos y sistemas de reconocimiento de voz. A medida que estas técnicas sigan evolucionando, prometen hacer que el procesamiento del habla de alta calidad sea más accesible y práctico para diversas necesidades.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Recomendar plataforma de código abierto: Parlant es un marco que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata