Screenshot 2024 06 20 At 11.05.06 Am.png

Los modelos de lenguaje grandes (LLM) han ganado una atención significativa en el campo de la traducción simultánea de voz a voz (SimulS2ST). Esta tecnología se ha vuelto crucial para la comunicación de baja latencia en diversos escenarios, como conferencias internacionales, transmisiones en vivo y subtítulos en línea. El principal desafío de SimulS2ST radica en producir voz traducida de alta calidad con un retraso mínimo. Esto requiere una política sofisticada para determinar los momentos óptimos para iniciar la traducción dentro de las entradas de voz en streaming (acción LECTURA) y posteriormente generar salidas de voz objetivo coherentes (acción ESCRIBIR).

Las metodologías actuales enfrentan varios desafíos. Los métodos de traducción simultánea existentes se centran principalmente en la traducción de texto a texto (Simul-T2TT) y de voz a texto (Simul-S2TT). Estos enfoques normalmente se basan en módulos externos en cascada como el reconocimiento de voz (ASR) y la síntesis de texto a voz (TTS) para lograr SimulS2ST. Sin embargo, este enfoque en cascada tiende a amplificar progresivamente los errores de inferencia entre módulos e impide la optimización conjunta de varios componentes, destacando la necesidad de una solución más integrada.

Los investigadores han realizado varios intentos para abordar los desafíos de la traducción simultánea de voz a voz, centrándose principalmente en los métodos de traducción Simul-T2TT y Simul-S2TT. En Simul-T2TT, los enfoques se clasifican en métodos fijos y adaptativos. Los métodos fijos, como la política de espera-k, emplean una estrategia predeterminada de esperar una cantidad determinada de tokens antes de alternar entre acciones de LECTURA y ESCRITURA. Los métodos adaptativos utilizan técnicas como atención monótona, alineaciones, arquitectura no autorregresiva o modelos de lenguaje para realizar dinámicamente Simul-T2TT. Para Simul-S2TT, la atención se ha centrado en la segmentación del habla. Los métodos fijos de decisión previa dividen el habla en segmentos de igual longitud, mientras que los métodos adaptativos dividen las entradas de voz en palabras o segmentos antes de aplicar las políticas Simul-T2TT. Algunos investigadores también han explorado la aplicación de modelos fuera de línea a tareas de Simul-S2TT. A pesar de estos avances, estos métodos todavía dependen en gran medida de módulos externos en cascada, lo que puede provocar la propagación de errores y dificultar la optimización conjunta del proceso de traducción.

Investigadores del Laboratorio Clave de Procesamiento Inteligente de Información, Instituto de Tecnología Informática, Academia de Ciencias de China (ICT/CAS), Laboratorio Clave de Seguridad de la IA, Academia de Ciencias de China, Academia de Ciencias de la Universidad de China, Escuela de Ciencia e Ingeniería del Futuro, Soochow presente universitario StreamDiscurso, aborda los desafíos de SimulS2ST al introducir información textual tanto para el habla de origen como para la de destino, brindando supervisión intermedia y guiando políticas a través de alineaciones basadas en texto. Este modelo directo de SimulS2ST emplea una arquitectura de dos pasos: primero traduce el habla de origen a estados ocultos del texto de destino y luego los convierte en voz de destino. Múltiples decodificadores CTC, optimizados mediante tareas auxiliares ASR y S2TT, brindan supervisión intermedia y aprenden alineaciones para orientación de políticas. Al optimizar conjuntamente todos los módulos a través del aprendizaje multitarea, StreamSpeech permite el aprendizaje simultáneo de traducción y políticas, superando potencialmente las limitaciones de los enfoques en cascada anteriores.

La arquitectura de StreamSpeech consta de tres componentes principales: un codificador de voz en streaming, un decodificador de texto simultáneo y un módulo de generación de texto a unidad sincronizado. El codificador de transmisión de voz utiliza un diseño Conformer basado en fragmentos, que le permite procesar entradas de transmisión mientras mantiene la codificación bidireccional dentro de fragmentos locales. El decodificador de texto simultáneo genera texto de destino atendiendo a los estados ocultos del habla de origen, guiado por una política que determina cuándo generar cada token de destino. Esta política se basa en alineaciones aprendidas a través de múltiples decodificadores CTC, que se optimizan mediante tareas auxiliares de ASR y S2TT. El módulo de generación de texto a unidad emplea una arquitectura no autorregresiva para generar sincrónicamente unidades correspondientes al texto decodificado. Finalmente, un codificador de voz HiFi-GAN sintetiza el habla objetivo de estas unidades.

StreamSpeech demuestra un rendimiento superior tanto en tareas fuera de línea como S2ST. En S2ST fuera de línea, supera al modelo UnitY de última generación con una mejora promedio de 1,5 BLEU. La arquitectura del modelo, que combina la traducción autorregresiva de voz a texto con la generación no autorregresiva de texto a unidad, resulta eficaz para equilibrar las capacidades de modelado y la captura de alineación. En S2ST simultáneo, StreamSpeech supera significativamente la línea base Wait-k, mostrando una mejora de aproximadamente 10 BLEU en condiciones de baja latencia en traducciones de francés, español y alemán a inglés. La política derivada de la alineación del modelo permite una sincronización de traducción más adecuada y una generación de voz objetivo coherente. Además, StreamSpeech muestra ventajas sobre los sistemas en cascada, destacando los beneficios de su enfoque directo para reducir la acumulación de errores y mejorar el rendimiento general en tareas Simul-S2ST.

StreamSpeech representa un avance significativo en la tecnología de traducción simultánea de voz a voz. Este innovador modelo integrado «Todo en uno» maneja eficazmente la transmisión ASR, la traducción simultánea y la síntesis de voz en tiempo real dentro de un marco unificado. Su enfoque integral permite mejorar el rendimiento en múltiples tareas, incluida la traducción de voz a voz sin conexión, la transmisión ASR, la traducción simultánea de voz a texto y la traducción simultánea de voz a voz.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.