Screenshot 2024 02 08 At 4.26.25 Pm.png

La tecnología de reconocimiento de voz se ha convertido en la piedra angular de diversas aplicaciones, permitiendo que las máquinas comprendan y procesen el habla humana. Este campo busca continuamente avances en algoritmos y modelos para mejorar la precisión y la eficiencia en el reconocimiento del habla en múltiples idiomas y contextos. El principal desafío en el reconocimiento de voz es desarrollar modelos que transcriban con precisión el habla de varios idiomas y dialectos. Los modelos a menudo necesitan ayuda con la variabilidad del habla, incluidos los acentos, la entonación y el ruido de fondo, lo que genera una demanda de soluciones más sólidas y versátiles.

Los investigadores han estado explorando varios métodos para mejorar los sistemas de reconocimiento de voz. Las soluciones existentes a menudo se han basado en arquitecturas complejas como Transformers, que, a pesar de su efectividad, enfrentan limitaciones, particularmente en la velocidad de procesamiento y la tarea matizada de reconocer e interpretar con precisión una amplia gama de matices del habla, incluidos dialectos, acentos y variaciones en los patrones del habla. .

El equipo de investigación de la Universidad Carnegie Mellon y el Instituto de Investigación Honda de Japón presentó un nuevo modelo, OWSM v3.1, que utiliza la arquitectura E-Branchformer para abordar estos desafíos. OWSM v3.1 es un modelo de voz estilo Open Whisper mejorado y más rápido que logra mejores resultados que el OWSM v3 anterior en la mayoría de las condiciones de evaluación.

Tanto el OWSM v3 anterior como el Whisper utilizan la arquitectura estándar de codificador-decodificador Transformer. Sin embargo, los avances recientes en codificadores de voz como Conformer y Branchformer han mejorado el rendimiento en las tareas de procesamiento de voz. Por lo tanto, el E-Branchformer se emplea como codificador en OWSM v3.1, lo que demuestra su eficacia en una escala de parámetros 1B. OWSM v3.1 excluye los datos de entrenamiento de WSJ utilizados en OWSM v3, que tenían transcripciones completamente en mayúsculas. Esta exclusión conduce a una tasa de error de palabras (WER) significativamente menor en OWSM v3.1. También demuestra una velocidad de inferencia hasta un 25% más rápida.

OWSM v3.1 demostró logros significativos en métricas de rendimiento. Superó a su predecesor, OWSM v3, en la mayoría de los puntos de referencia de evaluación, logrando una mayor precisión en las tareas de reconocimiento de voz en varios idiomas. En comparación con OWSM v3, OWSM v3.1 muestra mejoras en la traducción del inglés al X en 9 de 15 direcciones. Aunque puede haber una ligera degradación en algunas direcciones, la puntuación BLEU promedio mejora ligeramente de 13,0 a 13,3.

En conclusión, la investigación avanza significativamente hacia la mejora de la tecnología de reconocimiento de voz. Al aprovechar la arquitectura E-Branchformer, el modelo OWSM v3.1 mejora los modelos anteriores en términos de precisión y eficiencia y establece un nuevo estándar para soluciones de reconocimiento de voz de código abierto. Al hacer públicos el modelo y los detalles de la capacitación, el compromiso de los investigadores con la transparencia y la ciencia abierta enriquece aún más el campo y allana el camino para futuros avances.


Revisar la Papel y Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.