Las redes neuronales de extremo a extremo (E2E) han surgido como modelos flexibles y precisos para el reconocimiento automático de voz (ASR) multilingüe. Sin embargo, a medida que aumenta la cantidad de idiomas admitidos, en particular aquellos con grandes conjuntos de caracteres como el chino, el japonés y el coreano (CJK), el tamaño de la capa de salida aumenta sustancialmente. Esta expansión afecta negativamente los recursos informáticos, el uso de memoria y el tamaño de los activos. El desafío se vuelve más pronunciado en los sistemas multilingües, donde la salida a menudo consiste en uniones de caracteres o subpalabras de varios idiomas. Por lo tanto, los investigadores están lidiando con la necesidad de mantener la eficiencia y el rendimiento del modelo al tiempo que se adaptan a una amplia gama de idiomas y sus conjuntos de caracteres asociados en los sistemas ASR E2E.
Los intentos anteriores de abordar estos desafíos en ASR multilingüe se han centrado en representaciones a nivel de bytes, en particular utilizando palabras de código UTF-8 como tokens base. Este enfoque permite un tamaño de vocabulario de salida fijo de 256, lo que proporciona compacidad y universalidad en todos los idiomas. Sin embargo, las representaciones a nivel de bytes a menudo dan como resultado secuencias más largas, especialmente para los idiomas CJK, lo que potencialmente aumenta las tasas de error ya que se requieren múltiples predicciones para caracteres individuales. Los investigadores propusieron subpalabras a nivel de bytes utilizando codificación de pares de bytes (BPE) en secuencias de palabras de código UTF-8 para mitigar esto. Si bien esto redujo la cantidad de pasos de decodificación, no garantizó salidas UTF-8 válidas. Más tarde se introdujo un algoritmo de programación dinámica para recuperar caracteres válidos de secuencias de bytes potencialmente no válidas, aunque este método se optimizó para la validez de los caracteres en lugar de la calidad de ASR.
El método de última generación revisado por Investigadores de Apple Propone un enfoque de aprendizaje de representación robusto utilizando un codificador automático cuantificado vectorial. Este método tiene como objetivo optimizar representación a nivel de bytes específicamente para tareas de ASR E2E, abordando las limitaciones de los enfoques anteriores. El marco está diseñado para ser impulsado por datos, incorporando información tanto de texto como de audio para mejorar la precisión. Ofrece flexibilidad para incluir información adicional, como léxicos o fonemas, lo que lo hace adaptable a varios escenarios de ASR. Es importante destacar que el método incluye un mecanismo de corrección de errores para manejar secuencias no válidas, con una recuperación optimizada para la precisión en lugar de otras métricas. Este enfoque se alinea con los criterios de los investigadores para una representación ideal a nivel de bytes: optimización específica de la tarea, uso integral de la información y corrección eficaz de errores.
El método propuesto formula el problema de representación como una tarea de optimización con variables latentes, utilizando una arquitectura de autocodificador cuantificado vectorial (VQ-AE). Este autocodificador consta de cuatro componentes clave: un codificador de etiquetas, un codificador acústico, un decodificador de etiquetas y un cuantificador vectorial. El sistema utiliza la cuantificación vectorial como su cuello de botella, con los índices de las incrustaciones cuantificadas que sirven como variables latentes.
El codificador automático se optimiza utilizando una función de pérdida que comprende cuatro términos: pérdidas de entropía cruzada para codificadores acústicos y de etiquetas, una pérdida CTC para el codificador acústico y una pérdida de cuantificación. El método emplea un VQ-VAE residual (RVQ-VAE) con dos o tres libros de códigos, cada uno de los cuales contiene 256 incrustaciones, lo que permite que cada token de etiqueta se represente con 2-3 bytes.
Para gestionar posibles errores en las secuencias de bytes, el sistema incorpora un mecanismo de corrección de errores a través del decodificador de etiquetas. Este decodificador estima la secuencia de etiquetas más probable, optimizando la precisión incluso cuando se enfrentan a secuencias de bytes no válidas. La representación propuesta basada en VQ ofrece ventajas sobre UTF-8, incluida la codificación de longitud fija, la optimización específica de la tarea y una recuperación de errores mejorada.
Los investigadores evaluaron su propuesta de enfoque de representación basado en VQ en tareas de dictado bilingüe en inglés y mandarín, comparándolo con salidas basadas en caracteres y subpalabras UTF-8. Utilizando un modelo CTC-AED con aproximadamente 120 millones de parámetros, probaron varias representaciones de salida en conjuntos de datos que comprendían 10 000 horas de datos de entrenamiento en inglés y 14 000 horas de datos de entrenamiento en mandarín.
Los resultados mostraron que la representación basada en VQ superó consistentemente a las salidas de subpalabras UTF-8 en diferentes tamaños de subpalabras. Con 8000 subpalabras, el enfoque basado en VQ logró una reducción relativa del 5,8 % en la tasa de error de palabras (WER) para inglés y una reducción relativa del 3,7 % en la tasa de error de caracteres (CER) para mandarín en comparación con UTF-8. En comparación con la salida basada en caracteres, tanto las representaciones VQ como UTF-8 tuvieron un mejor rendimiento en inglés, al tiempo que mantuvieron una precisión similar para mandarín. En particular, el método basado en VQ con 8000 subpalabras demostró una reducción de la tasa de error relativa del 14,8 % para inglés y una reducción del 2,3 % para mandarín en comparación con la salida basada en caracteres, lo que resalta su eficacia y flexibilidad en sistemas ASR multilingües.
Este estudio presenta un algoritmo robusto para optimizar la representación a nivel de bytes en ASR, ofreciendo una alternativa a la representación UTF-8. Este enfoque se puede optimizar utilizando datos de audio y texto, con un mecanismo de corrección de errores diseñado para mejorar la precisión. Las pruebas en conjuntos de datos de dictado en inglés y mandarín demostraron una reducción relativa del 5 % en la tasa de error de token (TER) en comparación con los métodos basados en UTF-8. Si bien el estudio actual se centró en ASR bilingüe, los investigadores reconocen los desafíos en el desarrollo de una representación universal para todos los idiomas, como el problema del colapso del índice.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.