Este artículo de IA presenta BEST-STD (detección de términos hablados): un novedoso marco de tokenización de voz bidireccional mejorado con Mamba para una detección eficiente de términos hablados

La detección de términos hablados (STD) es un área crítica en el procesamiento del habla, que permite la identificación de frases o términos específicos en grandes archivos de audio. Esta tecnología se utiliza ampliamente en búsquedas basadas en voz, servicios de transcripción y aplicaciones de indexación multimedia. Al facilitar la recuperación de contenido hablado, STD desempeña un papel fundamental en la mejora de la accesibilidad y usabilidad de los datos de audio, especialmente en dominios como podcasts, conferencias y medios de difusión.

Un desafío importante en la detección de términos hablados es el manejo eficaz de términos fuera del vocabulario (OOV) y las demandas computacionales de los sistemas existentes. Los métodos tradicionales a menudo dependen de sistemas de reconocimiento automático de voz (ASR), que consumen muchos recursos y son propensos a errores, particularmente en segmentos de audio de corta duración o en condiciones acústicas variables. Además, estos métodos necesitan ayuda para segmentar con precisión el habla continua, lo que dificulta la identificación de términos específicos sin contexto.

Los enfoques existentes para las ETS incluyen técnicas basadas en ASR que utilizan redes de fonemas o grafemas, así como distorsión dinámica del tiempo (DTW) e incrustaciones de palabras acústicas para comparaciones directas de audio. Si bien estos métodos tienen sus ventajas, están limitados por la variabilidad de los hablantes, la ineficiencia computacional y los desafíos en el procesamiento de grandes conjuntos de datos. Las herramientas actuales también necesitan ayuda para generalizar a diferentes conjuntos de datos, especialmente para términos que no se encontraron durante la capacitación.

Investigadores del Instituto Indio de Tecnología Kanpur y imec – Universidad de Gante han introducido un novedoso marco de tokenización de voz llamado BEST-STD. Este enfoque codifica la voz en tokens semánticos discretos e independientes del hablante, lo que permite una recuperación eficiente con algoritmos basados en texto. Al incorporar un codificador Mamba bidireccional, el marco genera secuencias de tokens altamente consistentes en diferentes expresiones del mismo término. Este método elimina la necesidad de una segmentación explícita y maneja los términos OOV de manera más efectiva que los sistemas anteriores.

El sistema BEST-STD utiliza un codificador Mamba bidireccional, que procesa la entrada de audio tanto hacia adelante como hacia atrás para capturar dependencias de largo alcance. Cada capa del codificador proyecta datos de audio en incrustaciones de alta dimensión, que se discretizan en secuencias de tokens a través de un cuantificador vectorial. El modelo emplea un enfoque de aprendizaje autosupervisado, aprovechando la distorsión dinámica del tiempo para alinear expresiones del mismo término y crear pares de anclaje positivos a nivel de cuadro. El sistema utiliza un índice invertido para almacenar secuencias tokenizadas, lo que permite una recuperación eficiente al comparar la similitud de los tokens. Durante el entrenamiento, el sistema genera representaciones simbólicas consistentes, asegurando invariancia para el hablante y las variaciones acústicas.

El marco BEST-STD demostró un rendimiento superior en las evaluaciones realizadas en los conjuntos de datos LibriSpeech y TIMIT. En comparación con los métodos tradicionales de STD y los modelos de tokenización de última generación como HuBERT, WavLM y SpeechTokenizer, BEST-STD logró puntuaciones de similitud Jaccard significativamente más altas para la coherencia de los tokens, con puntuaciones de unigram que alcanzaron 0,84 y puntuaciones de bigram de 0,78. El sistema superó las líneas de base en tareas de recuperación de contenido hablado en precisión promedio promedio (MAP) y rango recíproco medio (MRR). Para los términos de vocabulario, BEST-STD logró puntuaciones MAP de 0,86 y puntuaciones MRR de 0,91 en el conjunto de datos LibriSpeech, mientras que para los términos OOV, las puntuaciones alcanzaron 0,84 y 0,90 respectivamente. Estos resultados subrayan la capacidad del sistema para generalizar eficazmente entre diferentes tipos de términos y conjuntos de datos.

En particular, el marco BEST-STD también destacó en velocidad y eficiencia de recuperación, beneficiándose de un índice invertido para secuencias tokenizadas. Este enfoque redujo la dependencia de la comparación basada en DTW computacionalmente intensiva, lo que la hace escalable para grandes conjuntos de datos. El codificador bidireccional Mamba, en particular, demostró ser más eficaz que las arquitecturas basadas en transformadores debido a su capacidad para modelar información temporal detallada que es fundamental para la detección de términos hablados.

En conclusión, la introducción de BEST-STD marca un avance significativo en la detección de términos hablados. Al abordar las limitaciones de los métodos tradicionales, este enfoque ofrece una solución sólida y eficiente para las tareas de recuperación de audio. El uso de tokens independientes del hablante y un codificador Mamba bidireccional no solo mejora el rendimiento sino que también garantiza la adaptabilidad a diversos conjuntos de datos. Este marco es prometedor para aplicaciones del mundo real, allanando el camino para una mejor accesibilidad y capacidad de búsqueda en el procesamiento de audio.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Este artículo de IA presenta BEST-STD (detección de términos hablados): un novedoso marco de tokenización de voz bidireccional mejorado con Mamba para una detección eficiente de términos hablados

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

4 nuevas técnicas para maximizar el código Claude

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

Xiaomi MiMo y TileRT impulsan un modelo de 1 billón de parámetros que supera los 1000 tokens por segundo en GPU comerciales

You missed

4 nuevas técnicas para maximizar el código Claude

¿Qué es una desaceleración de la memoria “normal” y cuándo debería preocuparme?

JD Vance revela secretos para hacer bebés, y es tan asqueroso como parece

Banda GPS apuntó a autos de lujo en San Pedro del Pinatar – The Leader