Transevalnia: un sistema basado en la solicitud para la evaluación de traducción de grano fino y alineado por humanos utilizando LLMS

Los sistemas de traducción impulsados por LLM se han vuelto tan avanzados que pueden superar a los traductores humanos en algunos casos. A medida que mejoran los LLM, especialmente en tareas complejas, como la traducción a nivel de documento o literario, se vuelve cada vez más difícil avanzar en más y evaluar con precisión ese progreso. Las métricas automatizadas tradicionales, como Bleu, todavía se usan pero no explican por qué se da una puntuación. Con la calidad de la traducción que alcanza los niveles casi humanos, los usuarios requieren evaluaciones que se extienden más allá de las métricas numéricas, proporcionando razonamiento a través de dimensiones clave, como precisión, terminología e idoneidad de la audiencia. Esta transparencia permite a los usuarios evaluar las evaluaciones, identificar errores y tomar decisiones más informadas.

Si bien Bleu ha sido durante mucho tiempo el estándar para evaluar la traducción automática (MT), su utilidad se está desvaneciendo a medida que los sistemas modernos ahora rivalizan o superan a los traductores humanos. Las métricas más nuevas, como Bleurt, Comet y Metricx, modelos de lenguaje potentes para evaluar la calidad de la traducción con mayor precisión. Los modelos grandes, como GPT y Palm2, ahora pueden ofrecer evaluaciones estructuradas o de disparo cero, incluso generando comentarios de estilo MQM. Técnicas como la comparación por pares también han mejorado la alineación con los juicios humanos. Estudios recientes han demostrado que pedir modelos explicar sus elecciones mejora la calidad de la decisión; Sin embargo, tales métodos basados en justificación todavía están subutilizados en la evaluación de MT, a pesar de su creciente potencial.

Los investigadores de Sakana.Ai han desarrollado Transevalnia, un sistema de evaluación y clasificación de traducción que utiliza el razonamiento basado en la solicitud para evaluar la calidad de la traducción. Proporciona retroalimentación detallada utilizando dimensiones MQM seleccionadas, traducciones de clasificación y asigna puntajes en una escala Likert de 5 puntos, incluida una calificación general. El sistema funciona de manera competitiva, o incluso mejor que, el modelo líder de Ranker de MT en varios pares de idiomas y tareas, incluidos los ingleses-japoneses, el inglés chino y más. Probado con LLM como Claude 3.5 y Qwen-2.5, sus juicios se alinearon bien con las calificaciones humanas. El equipo también abordó el sesgo de posición y ha publicado todos los datos, salidas de razonamiento y código para uso público.

La metodología se centra en evaluar las traducciones a través de aspectos clave de calidad, incluida la precisión, la terminología, la idoneidad de la audiencia y la claridad. Para textos poéticos como Haikus, el tono emocional reemplaza las verificaciones gramaticales estándar. Las traducciones se descomponen y evalúan el tramo en el tramo, se puntúan en una escala 1–5 y luego se clasifican. Para reducir el sesgo, el estudio compara tres estrategias de evaluación: un solo paso, dos pasos y un método de intercalación más confiable. También se prueba un método de “no razonamiento”, pero carece de transparencia y es propenso al sesgo. Finalmente, los expertos humanos revisaron las traducciones seleccionadas para comparar sus juicios con los del sistema, ofreciendo información sobre su alineación con los estándares profesionales.

Los investigadores evaluaron los sistemas de clasificación de traducción utilizando conjuntos de datos con puntajes humanos, comparando sus modelos Transevalnia (QWEN y soneto) con MT-Ranker, Comet-22/23, Xcomet-XXL y Metricx-XXL. En WMT-2024 EN-es, Mt-Ranker se desempeñó mejor, probablemente debido a datos de entrenamiento ricos. Sin embargo, en la mayoría de los otros conjuntos de datos, Transevalnia coincidió o superó a Mt-Ranker; Por ejemplo, el enfoque de no razonamiento de Qwen condujo a una victoria en WMT-2023 en-de. El sesgo de posición se analizó utilizando puntajes de inconsistencia, donde los métodos entrelazados a menudo tenían el sesgo más bajo (por ejemplo, 1.04 en en-ja duro). Los evaluadores humanos le dieron al soneto las puntuaciones generales más altas de Likert (4.37-4.61), con las evaluaciones del soneto correlacionando bien con el juicio humano (R ~ 0.51–0.54 de Spearman).

En conclusión, Transevalnia es un sistema basado en la solicitud para evaluar y clasificar traducciones utilizando LLM como Claude 3.5 Sonnet y Qwen. El sistema proporciona puntajes detallados en las dimensiones de calidad clave, inspiradas en el marco MQM, y selecciona la mejor traducción entre las opciones. A menudo coincide o supera a MT-Ranker en varios pares de idiomas WMT, aunque Metricx-XXL conduce a WMT debido al ajuste fino. Los evaluadores humanos encontraron que los resultados del soneto eran confiables, y los puntajes mostraron una fuerte correlación con los juicios humanos. QWEN QWEN mejoró el rendimiento notablemente. El equipo también exploró soluciones al sesgo de posición, un desafío persistente en los sistemas de clasificación y compartió todos los datos y código de evaluación.


Mira el Papel aquí. No tener en cuenta Consulte nuestra página de tutoriales sobre AI Agent y Agentic AI para varias aplicaciones. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.