Uno de los retos más difíciles en la traducción es la traducción simultánea de voz (SiST). La capacidad de traducir palabras habladas a otro idioma en tiempo real se conoce como traducción simultánea de voz y allana el camino para la comunicación instantánea a través de las barreras lingüísticas. Se ha hablado mucho de la interpretación autónoma asistida por máquina en el procesamiento del lenguaje natural (PLN). Los modelos de reconocimiento automático de voz (ASR), puntuación y traducción automática (MT) en tiempo real se emplean normalmente en un sistema en cascada en los sistemas de traducción simultánea tradicionales. Desafortunadamente, el módulo ASR es una fuente común de latencia y propagación de errores en dichos sistemas en cascada.
Los modelos académicos y los motores comerciales de SiST han avanzado mucho, pero la calidad de la traducción aún debe mejorar. Con la ayuda de personas, los estudios evaluaron los sistemas SiST disponibles en la actualidad. Estos sistemas afectan significativamente la eficacia de la comunicación desde un punto de vista centrado en el usuario, ya que solo brindan a los oyentes menos del 42% de la información correcta. Por otro lado, un traductor humano puede transmitir al menos el 95% del significado deseado y, a menudo, más del 70%. Como resultado, los investigadores utilizan el 80% para denotar a los intérpretes humanos altamente calificados en este trabajo. Se recomienda a los LLM para completar la tarea de SiST debido a su enorme éxito con la traducción automática y hablada.
Comenzando con la política de lectura y escritura, que requiere que LLM solo ofrezca una traducción parcial para el habla de entrada, la integración de LLM en SiST requiere trabajo. En segundo lugar, los LLM no pueden aprender términos o terminologías poco comunes a partir de los datos de entrenamiento; por lo tanto, obtener un rendimiento equivalente al humano es un desafío. Finalmente, el rendimiento en la tarea SiST aún se ve obstaculizado por la escasez de datos de entrenamiento. En respuesta a estos desafíos, los investigadores de ByteDance han presentado CLASI, un agente multilingüe único que logra la interpretación simultánea a través de la ejecución repetida de varias operaciones.
CLASI supera el primer obstáculo emulando el enfoque de los intérpretes humanos de segmentar oraciones completas en fragmentos más pequeños y manejables basados en marcadores sintácticos y significado contextual. Esto se logra a través de un método de aprendizaje de políticas basado en datos, lo que permite a CLASI aprender y aplicar una política de lectura y escritura rigurosa para SiST. Para abordar el segundo obstáculo, el agente CLASI se mejoró con dos módulos adicionales: una memoria que registra el contexto del habla y una base de datos de conocimiento externa con terminologías y traducciones coincidentes. Sin embargo, la base de datos de conocimiento externa puede introducir ruido y ralentizar la técnica. Para mitigar esto, los investigadores proponen un nuevo método llamado Generación aumentada de recuperación multimodal (MM-RAG). Este método utiliza un recuperador multimodal para buscar información relevante en una base de datos externa, mejorando así la eficiencia del agente CLASI.
Añaden la información obtenida y el contexto de la memoria al mensaje del agente LLM para mejorar la traducción mediante el aprendizaje en contexto. Utilizan una metodología de entrenamiento de tres etapas (preentrenamiento, entrenamiento continuo y ajuste) para abordar la escasez de datos del trabajo SiST. LLM y el codificador de audio se entrenan previamente por separado utilizando sus enormes conjuntos de datos internos. El equipo entrena su modelo de forma continua utilizando miles de millones de tokens de datos de traducción de voz sintética de baja calidad para promover su objetivo de lograr la alineación modal entre la voz y el texto. Para que LLM haga un mayor uso de la información contextual del recuperador y de la traducción precedente, también incorporan varias actividades para mejorar su capacidad de aprendizaje en contexto. Por último, utilizan una pequeña cantidad de datos anotados por humanos para ajustar el modelo, haciéndolo más resistente y produciendo mejores traducciones al imitar las acciones de los profesionales humanos. Dado que SiST incorpora con frecuencia compactación, abstracción y paráfrasis, es posible que los criterios de evaluación automática tradicionales de la interpretación simultánea no reflejen con precisión su rendimiento.
Valid Information Proportion (VIP)2 es una nueva métrica de evaluación que ofrecen, que se alinea con los intérpretes humanos. El objetivo principal de SiST es la comunicación en tiempo real, y VIP indica la proporción de información que se puede transmitir con precisión. Los investigadores descubrieron que el método propuesto supera significativamente a otros algoritmos disponibles en evaluaciones humanas realizadas en conjuntos de datos de discursos largos del mundo real que son complejos y variados en cuanto a temas. Como ejemplo, en la dirección de la traducción del chino al inglés, CLASI obtiene una puntuación VIP del 81,3 %, que es mucho mejor que la de los intérpretes humanos. Este resultado prometedor indica un futuro brillante para SiST.
Los resultados en los trabajos de chino a inglés y de inglés a chino fueron mucho mejores que los de los sistemas comerciales, pero el equipo destaca que las consideraciones lingüísticas deberían ampliarse en el futuro. Cada ronda de traducción desencadena una secuencia de acciones completa en la implementación presentada de CLASI. Dado que el modelo puede traducir con precisión sin ningún conocimiento externo, algunas actividades son opcionales para escenarios de traducción simples. Es posible entrenar al modelo para que omita pasos adicionales en el futuro.
Por lo tanto, se sugiere la métrica de proporción de información válida (VIP) para mejorar la evaluación humana. Esto subraya la necesidad de mediciones de calidad y latencia automatizadas más confiables en el futuro. La evidencia también apunta al potencial del aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) para mejorar el rendimiento de LLM. Si bien CLASI supera a los sistemas de última generación anteriores, existe una clara necesidad de investigación adicional para mejorar los modelos de recompensa multimodales, así como los enfoques de RL para SiST. Las áreas de estudio prometedoras incluyen la integración multimodal, como la producción de video a video o de voz a voz de extremo a extremo.
Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.