Unbabel presenta Tower+: un marco unificado para la traducción de alta fidelidad y el seguimiento de las instrucciones en LLM multilingües

Los modelos de idiomas grandes han impulsado el progreso en la traducción automática, aprovechando los corpus de capacitación masiva para traducir docenas de idiomas y dialectos mientras capturan sutiles matices lingüísticos. Sin embargo, el ajuste de estos modelos para la precisión de la traducción a menudo perjudica sus habilidades de seguimiento y conversación de instrucciones, y las versiones de uso amplio luchan para cumplir con los estándares profesionales de fidelidad. Equilibrar las traducciones precisas y culturalmente conscientes con la capacidad de manejar la generación de código, la resolución de problemas y el formato específico del usuario sigue siendo desafiante. Los modelos también deben preservar la consistencia terminológica y cumplir con las pautas de formateo entre audiencias variadas. Las partes interesadas requieren sistemas que puedan adaptarse dinámicamente a los requisitos de dominio y las preferencias del usuario sin sacrificar la fluidez. Las puntuaciones de referencia, como WMT24 ++, que cubren 55 variantes de lenguaje y las indicaciones 541 centradas en las instrucciones de IFEVal resaltan la brecha entre la calidad de traducción especializada y la versatilidad de uso general, lo que plantea un cuello de botella crítico para la implementación empresarial.

Enfoques actuales para adaptar modelos de idiomas para la precisión de la traducción

Se han explorado múltiples enfoques para adaptar a los modelos de idioma para la traducción. Los modelos de idiomas grandes pre-entrenados en los corpus paralelos se han utilizado para mejorar la adecuación y fluidez del texto traducido. Mientras tanto, continuó previamente en una combinación de datos monolingües y paralelos aumenta la fluidez multilingüe. Algunos equipos de investigación han complementado la capacitación con el aprendizaje de refuerzo de la retroalimentación humana para alinear los resultados con preferencias de calidad. Los sistemas patentados como GPT-4O y Claude 3.7 han demostrado la calidad de traducción líder, y las adaptaciones de peso abierto, incluidos los modelos Tower V2 y Gemma 2, han alcanzado la paridad o han superado los modelos de código cerrado bajo ciertos escenarios de idiomas. Estas estrategias reflejan esfuerzos continuos para abordar las duales demandas de la precisión de la traducción y las amplias capacidades del lenguaje.

Introducción de Torre+: Capacitación unificada para la traducción y tareas del idioma general

Investigadores de Unbabel, Instituto de Telecomunicações, Instituto Superior Técnico, Universidade de Lisboa (Unidad de Lisboa Ellis) y Mics, Centralesupélec, Université Paris-Saclay, introducido Torre+un conjunto de modelos. El equipo de investigación diseñó variantes en múltiples escalas de parámetros, 2 mil millones, 9 mil millones y 72 mil millones, para explorar la compensación entre la especialización de traducción y la utilidad de uso general. Al implementar una tubería de capacitación unificada, los investigadores tenían como objetivo posicionar los modelos Tower+ en la frontera de Pareto, logrando un alto rendimiento de traducción y capacidades generales robustas sin sacrificar uno por el otro. El enfoque aprovecha las arquitecturas para equilibrar las demandas específicas de la traducción automática con la flexibilidad requerida por las tareas de conversación e instrucción, lo que respalda una variedad de escenarios de aplicación.

Tower+ Tubelina de entrenamiento: preventiva, ajuste supervisado, preferencias y RL

La tubería de capacitación comienza con el pretrete continuo en datos cuidadosamente seleccionados que incluyen contenido monolingüe, oraciones paralelas filtradas formateadas como instrucciones de traducción y una pequeña fracción de ejemplos similares a la instrucción. A continuación, el ajuste superior supervisado refina el modelo utilizando una combinación de tareas de traducción y diversos escenarios de seguimiento de instrucciones, incluida la generación de código, la resolución de problemas matemáticos y la respuesta de preguntas. Sigue una etapa de optimización de preferencias, que emplea la optimización de preferencias ponderadas y las actualizaciones de políticas relativas al grupo capacitadas en señales fuera de política y variantes de traducción editadas por humanos. Finalmente, el aprendizaje de refuerzo con recompensas verificables refuerza el cumplimiento preciso de las pautas de transformación, utilizando cheques basados ​​en Regex y anotaciones de preferencia para refinar la capacidad del modelo para seguir instrucciones explícitas durante la traducción. Esta combinación de previación, alineación supervisada y actualizaciones basadas en recompensas produce un equilibrio robusto entre la precisión de la traducción especializada y el dominio del lenguaje versátil.

Resultados de referencia: la torre+ logra la traducción de la arte y la instrucción siguiendo

El modelo Tower+ 9B alcanzó una tasa de ganancia de 33.47% en las indicaciones de chat generales multilingües, al tiempo que obtuvo una puntuación XCOMET-XXL de 84.38 en 24 pares de idiomas, superando a las contrapartes de peso abierto de tamaño similar. La variante insignia de 72 mil millones de parámetros aseguró una tasa de ganancia del 54.52 por ciento en M-Arenahard, registró un puntaje de seguimiento de instrucciones IFEVal de 89.02, y alcanzó un nivel XCOMET-XXL de 83.29 en el punto de referencia completo de WMT24 ++ WMT24 ++. En el punto de referencia combinado de traducción y seguimiento de instrucciones, IF-MT obtuvo 5.55 para la adherencia a la instrucción y 88.95 para la fidelidad de traducción, estableciendo resultados de última generación entre los modelos de peso abierto. Estos resultados confirman que la tubería integradora de los investigadores une efectivamente la brecha entre el rendimiento de la traducción especializada y las amplias capacidades del lenguaje, lo que demuestra su viabilidad para las aplicaciones empresariales y de investigación.

Lo más destacado técnico de los modelos Tower+

  • Modelos Tower+, desarrollados por Unbabel y Academic Partners, SPAN 2 B, 9 B y 72 B de parámetros para explorar la frontera de rendimiento entre la especialización de traducción y la utilidad de uso general.
  • La tubería posterior al entrenamiento integra cuatro etapas: prisión previa continua (66% monolingüe, 33% paralela e instrucción del 1%), ajuste fino supervisado (22.3% de traducción), optimización de preferencias ponderadas y aprendizaje de refuerzo verificable, para preservar las habilidades de chat mientras mejora la aceleración de la traducción.
  • El previación continua cubre 27 idiomas y dialectos, así como 47 pares de idiomas, más de 32 mil millones de tokens, fusionando puntos de control especializados y generales para mantener el equilibrio.
  • La variante 9 B alcanzó una tasa de ganancia del 33.47% en M-Arenahard, 83.84% en Ifeval y un 84.38% XComet-XXL en 24 pares, con puntajes IF-MT de 4.85 (instrucción) y 88.51 (traducción).
  • El modelo 72 B registró 54.52% M-Arenahard, 89.02% Ifeval, 83.29% XComet-XXL y 5.55/88.95% IF-MT, estableciendo un nuevo estándar de peso abierto.
  • Incluso el modelo 2B coincidía con las líneas de base más grandes, con 6.33% en M-Arenahard y 87.65% de calidad de traducción IF-MT.
  • Benchmarked contra GPT-4O-1120, Claude-Sonnet-3.7, Alma-R, Gemma-2 y Llama-3.3, la suite Tower+ coincide consistentemente o supera tanto en tareas especializadas como generales.
  • La investigación proporciona una receta reproducible para la construcción de LLM que satisfagan las necesidades de traducción y conversación simultáneamente, reduciendo la proliferación del modelo y la sobrecarga operativa.

Conclusión: un marco óptimo de Pareto para futuros LLM centrados en la traducción

En conclusión, al unificar el pretratenamiento a gran escala con etapas de alineación especializadas, Tower+ demuestra que la excelencia de la traducción y la versatilidad conversacional pueden coexistir dentro de una sola suite de peso abierto. Los modelos logran un equilibrio óptimo de Pareto en la fidelidad de la traducción, el seguimiento de las instrucciones y las capacidades de chat generales, que ofrece un plan escalable para el desarrollo de LLM de dominio futuro.


Mira el Papel y Modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.