Este artículo de IA de Google presenta un innovador sistema ASR no autorregresivo fusionado con LM para un reconocimiento de voz multilingüe superior

La evolución de la tecnología en el reconocimiento de voz ha estado marcada por avances significativos, pero desafíos como la latencia (el retraso en el procesamiento del lenguaje hablado) han impedido continuamente el progreso. Esta latencia es especialmente pronunciada en los modelos autorregresivos, que procesan el habla de forma secuencial, lo que provoca retrasos. Estos retrasos son perjudiciales en aplicaciones en tiempo real como subtítulos en vivo o asistentes virtuales, donde la inmediatez es clave. Abordar esta latencia sin comprometer la precisión sigue siendo fundamental para avanzar en la tecnología de reconocimiento de voz.

Un enfoque pionero en el reconocimiento de voz es el desarrollo de un modelo no autorregresivo, una desviación de los métodos tradicionales. Este modelo, propuesto por un equipo de investigadores de Google Research, está diseñado para abordar los problemas de latencia inherentes que se encuentran en los sistemas existentes. Utiliza grandes modelos de lenguaje y aprovecha el procesamiento paralelo, que procesa segmentos de voz simultáneamente en lugar de secuencialmente. Este enfoque de procesamiento similar es fundamental para reducir la latencia y ofrecer una experiencia de usuario más fluida y receptiva.

El núcleo de este modelo innovador es la fusión del modelo de habla universal (USM) con el modelo de lenguaje PaLM 2. El USM, un modelo robusto con 2 mil millones de parámetros, está diseñado para un reconocimiento de voz preciso. Utiliza un vocabulario de 16.384 palabras y emplea un decodificador de Clasificación Temporal Conexionista (CTC) para el procesamiento paralelo. El USM está entrenado en un extenso conjunto de datos, que abarca más de 12 millones de horas de audio sin etiquetar y 28 mil millones de oraciones de datos de texto, lo que lo hace increíblemente hábil en el manejo de entradas multilingües.

El modelo de lenguaje PaLM 2, conocido por su destreza en el procesamiento del lenguaje natural, complementa el USM. Está entrenado en diversas fuentes de datos, incluidos documentos web y libros, y emplea un gran vocabulario de 256.000 palabras. El modelo se destaca por su capacidad para calificar hipótesis de reconocimiento automático de voz (ASR) utilizando un modo de calificación de modelo de lenguaje de prefijo. Este método implica solicitar al modelo un prefijo fijo (hipótesis principales de segmentos anteriores) y calificar varias hipótesis de sufijo para el segmento actual.

En la práctica, el sistema combinado procesa audio de formato largo en fragmentos de 8 segundos. Tan pronto como el audio está disponible, el USM lo codifica y estos segmentos se transmiten al decodificador CTC. El decodificador forma una red de confusión que codifica posibles fragmentos de palabras, que el modelo PaLM 2 puntúa. El sistema se actualiza cada 8 segundos, proporcionando una respuesta casi en tiempo real.

El rendimiento de este modelo se evaluó rigurosamente en varios idiomas y conjuntos de datos, incluidos los subtítulos de YouTube y el conjunto de pruebas FLEURS. Los resultados fueron notables. Se observó una mejora promedio del 10,8% en la tasa relativa de error de palabras (WER) en el conjunto de pruebas multilingüe FLEURS. Para el conjunto de datos de subtítulos de YouTube, que presenta un escenario más desafiante, el modelo logró una mejora promedio del 3,6 % en todos los idiomas. Estas mejoras son un testimonio de la eficacia del modelo en diversos idiomas y entornos.

El estudio profundizó en varios factores que afectan el rendimiento del modelo. Exploró el impacto del tamaño del modelo de lenguaje, que oscila entre 128 millones y 340 mil millones de parámetros. Encontró que, si bien los modelos más grandes reducían la sensibilidad al peso de la fusión, las ganancias en WER podrían no compensar los crecientes costos de inferencia. El peso óptimo de la puntuación LLM también cambió con el tamaño del modelo, lo que sugiere un equilibrio entre la complejidad del modelo y la eficiencia computacional.

En conclusión, esta investigación presenta un salto significativo en la tecnología de reconocimiento de voz. Entre sus aspectos más destacados se incluyen:

  • Un modelo no autorregresivo que combina USM y PaLM 2 para reducir la latencia.
  • Precisión y velocidad mejoradas, lo que lo hace adecuado para aplicaciones en tiempo real.
  • Mejoras significativas en WER en múltiples idiomas y conjuntos de datos.

El enfoque innovador de este modelo para procesar el habla en paralelo, junto con su capacidad para manejar entradas multilingües de manera eficiente, lo convierte en una solución prometedora para diversas aplicaciones del mundo real. Los conocimientos proporcionados sobre los parámetros del sistema y sus efectos sobre la eficacia de ASR añaden conocimientos valiosos al campo, allanando el camino para futuros avances en la tecnología de reconocimiento de voz.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.