Lingua Franca: enfoque de traducción automática con reconocimiento de entidades para responder preguntas a través de gráficos de conocimiento | de Aleksandr Perevalov

Hacia una lengua franca para los sistemas de respuesta a preguntas de gráficos de conocimiento

La traducción automática (MT) puede mejorar los sistemas existentes de respuesta a preguntas (QA), que tienen capacidades lingüísticas limitadas, al permitirles admitir varios idiomas. Sin embargo, la traducción automática tiene un inconveniente importante: a menudo, no logra traducir entidades nombradas que no se pueden traducir palabra por palabra. Por ejemplo, el título alemán de la película “El Papa debe morir” es “Ein Papst zum Küssen”, que tiene la traducción literal: “Un Papa al que besar”. Dado que la exactitud de las entidades nombradas es crucial para los sistemas de control de calidad, este desafío debe abordarse adecuadamente. En este artículo, presentamos nuestro enfoque de traducción automática con reconocimiento de entidades llamado “Lingua Franca”. Aprovecha los gráficos de conocimiento para utilizar la información almacenada allí y garantizar la exactitud de las traducciones de las entidades nombradas. ¡Y sí, funciona!

Lograr traducciones de alta calidad depende en gran medida de traducir con precisión las entidades nombradas (EN) dentro de las oraciones. Se han propuesto varios métodos para mejorar la traducción de NE, incluidos enfoques que integran gráficos de conocimiento (KG) para mejorar la traducción de entidades, reconociendo el papel fundamental de las entidades en la calidad general de la traducción dentro del contexto de la garantía de calidad. Es importante señalar que la calidad de la traducción NE no es un objetivo aislado; tiene implicaciones más amplias para los sistemas involucrados en tareas como la recuperación de información (IR) o la respuesta a preguntas basada en gráficos de conocimiento (KGQA). En este artículo, profundizaremos en una discusión detallada sobre la traducción automática (MT) y KGQA.

La importancia de los sistemas KGQA radica en su capacidad de proporcionar respuestas objetivas a los usuarios basadas en datos estructurados (consulte la figura siguiente).

Captura de pantalla de la función de respuesta directa de Google (por autor)

Los sistemas KGQA son componentes centrales de los motores de búsqueda modernos que les permiten dar respuestas directas a sus usuarios (Búsqueda de Google, captura de pantalla del autor).

Además, los sistemas KGQA multilingües desempeñan un papel crucial a la hora de abordar la “brecha del lenguaje digital” en la Web. Por ejemplo, los artículos de Wikipedia relacionados con Alemania, especialmente aquellos dedicados a ciudades o personas, contienen más información en alemán que en otros idiomas; este desequilibrio de información puede ser manejado por el sistema multilingüe KGQA que es, por cierto, el núcleo de todos los motores de búsqueda modernos.

Una de las opciones para permitir que el sistema KGQA responda preguntas en diferentes idiomas es utilizar MT. Sin embargo, un MT listo para usar enfrenta desafíos notables cuando se trata de traducir EN, ya que numerosas entidades no son fácilmente traducibles y exigen conocimientos previos para una interpretación precisa. Por ejemplo, consideremos el título alemán de la película “El Papa debe morir”, que es “Ein Papst zum Küssen”. La traducción literal, “Un Papa al que besar”, subraya la necesidad de una comprensión contextual más allá de un enfoque de traducción simple.

Dadas las limitaciones de los métodos de MT convencionales para traducir entidades, la combinación de sistemas KGQA con MT a menudo da como resultado NE distorsionados, lo que reduce significativamente la probabilidad de responder preguntas con precisión. Por lo tanto, existe la necesidad de un enfoque mejorado para incorporar conocimientos previos sobre EN en múltiples idiomas.

Este artículo presenta e implementa un enfoque novedoso para la traducción automática con reconocimiento de entidades nombradas (NEAMT) destinado a mejorar las capacidades multilingües de los sistemas KGQA. El concepto central de NEAMT implica aumentar la calidad de la MT incorporando información de un gráfico de conocimiento (por ejemplo, Wikidatos y DBpedia). Esto se logra mediante la utilización de la técnica de “reemplazo de entidades”.

Como datos para la evaluación utilizamos el QALD-9-más y QALD-10 conjuntos de datos. Luego, utilizamos múltiples componentes dentro de nuestro marco NEAMT, que están disponibles en nuestro repositorio. Finalmente, el enfoque se evalúa en dos sistemas KGQA: QRespuesta y canario. La descripción detallada del enfoque está disponible en la siguiente figura.

Descripción general del enfoque Lingua Franca en el proceso KGQA (figura del autor)

En esencia, nuestro enfoque, durante el proceso de traducción, preserva los NE conocidos utilizando la técnica de reemplazo de entidades. Posteriormente, estas entidades se sustituyen por sus correspondientes etiquetas de un gráfico de conocimiento en el idioma de traducción de destino. Este meticuloso proceso garantiza la traducción precisa de las preguntas antes de que sean abordadas por un sistema KGQA.

Siguiendo las ideas de nuestro artículo anteriordesignamos el inglés como el idioma de traducción de destino común, lo que llevó a la nomenclatura de nuestro enfoque como “Lingua Franca” (inspirada en el significado de Lenguaje “puente” o “enlace”). Es esencial tener en cuenta que nuestro marco es versátil y puede adaptarse perfectamente a cualquier otro idioma como idioma de destino. Es importante destacar que Lingua Franca se extiende más allá del alcance de KGQA y encuentra aplicabilidad en varias aplicaciones de búsqueda orientadas a entidades.

El enfoque de Lingua Franca comprende tres pasos principales: (1) Reconocimiento de entidades nombradas (NER) y Vinculación de entidades nombradas (NEL), (2) la aplicación de la técnica de reemplazo de entidades basada en entidades nombradas identificadas y (3) utilización de una máquina herramienta de traducción para generar texto en un idioma de destino mientras se considera la información de los pasos anteriores. Aquí, el inglés se utiliza constantemente como idioma de destino, lo que se alinea con investigaciones relacionadas que lo consideran la estrategia más óptima para la calidad de las respuestas a preguntas (QA). Sin embargo, el enfoque no se limita al inglés y, si es necesario, se pueden emplear otros idiomas.

El enfoque se implementa como un marco de código abierto, lo que permite a los usuarios crear sus canales de traducción automática con reconocimiento de entidades nombradas (NEAMT) integrando componentes personalizados NER, NEL y MT (consulte nuestro GitHub). Los detalles del enfoque Lingua Franca para todos los entornos se ilustran en el ejemplo proporcionado, como se muestra en la siguiente figura.

Una representación detallada del enfoque Lingua Franca siguiendo múltiples escenarios (figura del autor)

Los hallazgos experimentales de este estudio abogan firmemente por la superioridad de Lingua Franca sobre las herramientas de traducción automática estándar cuando se combinan con sistemas KGQA.

Al evaluar cada configuración de reemplazo de entidad, se calculó la tasa de marcadores de posición o etiquetas NE corruptos después del procesamiento a través de una herramienta de traducción automática. Esta tasa sirve como indicador de la calidad real de traducción NE para las tuberías relacionadas con la aproximación. Las estadísticas actualizadas son las siguientes:

Configuración 1 (marcadores de posición en forma de cadena): el 6,63% de los marcadores de posición se perdieron o dañaron.
Configuración 2 (marcadores de posición numéricos): el 2,89% de los marcadores de posición se perdieron o corrompieron.
Configuración 3 (reemplazar los NE con sus etiquetas en inglés antes de la traducción): el 6,16% de las etiquetas estaban corruptas.

Como resultado, con nuestro enfoque, podemos afirmar con seguridad que hasta el 97,11% (Configuración 2) de los NE reconocidos en un texto se tradujeron correctamente.

Analizamos los resultados con respecto a la calidad del control de calidad teniendo en cuenta los siguientes componentes experimentales: un proceso de enfoque o una herramienta de traducción automática estándar, un lenguaje fuente y un punto de referencia KGQA. La siguiente figura ilustra la comparación entre el abordaje y la MT estándar; estos resultados pueden interpretarse como un estudio de ablación.

Gráfico de barras agrupadas de puntuaciones de Macro F1 para nuestros experimentos (por autor)

El diagrama de barras agrupadas ilustra la Puntuación macro F1 (obtenido usando Gerbo-QA) sobre cada lengua y división. En el contexto del estudio de ablación, cada grupo consta de dos barras: la primera pertenece al mejor enfoque propuesto por nosotros, mientras que la segunda barra refleja el rendimiento de una herramienta MT estándar (línea de base).

Observamos que en la mayoría de los casos experimentales (19 de 24) los sistemas KGQA que utilizaban nuestro enfoque superaron a los que utilizaban herramientas de traducción automática estándar. Para verificar la afirmación anterior, realizamos la prueba de rangos con signo de Wilcoxon con los mismos datos. Con base en los resultados de la prueba (valor p = 0,0008, con α = 0,01), rechazamos la hipótesis nula que denota que los resultados de calidad del control de calidad no tienen diferencias, es decir, al combinar KGQA con MT estándar y al combinar KGQA con el enfoque. Por lo tanto, concluimos que el enfoque, que se basa en nuestro marco NEAMT, mejora significativamente la calidad del control de calidad al tiempo que responde preguntas multilingües en comparación con las herramientas de traducción automática estándar.

La reproducibilidad de los experimentos se aseguró repitiéndolos y calculando el coeficiente de correlación de Pearson entre todas las métricas de calidad del control de calidad. El coeficiente resultante de 0,794 corresponde al valor límite entre una correlación fuerte y muy fuerte. Por lo tanto, asumimos que nuestros experimentos son reproducibles.

Este artículo presenta el enfoque NEAMT llamado Lingua franca. Diseñado para mejorar las capacidades multilingües y mejorar la calidad del control de calidad en comparación con las herramientas de traducción automática estándar, Lingua Franca está diseñado para su uso con sistemas KGQA con el fin de ampliar el alcance de sus posibles usuarios. La implementación y evaluación de Lingua Franca utiliza un marco modular NEAMT desarrollado por los autores, con información detallada proporcionada en la sección de Experimentos. Las contribuciones clave del documento incluyen: (1) ser el primero, hasta donde sabemos, en combinar el enfoque NEAMT (es decir, Lingua Franca) con KGQA; (2) presentar un marco modular de código abierto para NEAMT, que permita a la comunidad de investigación construir sus propios canales de MT; y (3) realizar una evaluación integral y un estudio de ablación para demostrar la eficacia del enfoque Lingua Franca.

Para trabajos futuros, nuestro objetivo es ampliar nuestra configuración experimental para abarcar una gama más amplia de lenguajes, puntos de referencia y sistemas KGQA. Para abordar los marcadores de posición dañados en el proceso de reemplazo de entidades, planeamos ajustar los modelos MT utilizando estos datos. Además, se realizará un análisis de errores más detallado, centrado en la propagación de errores.

No olvides consultar nuestro trabajo de investigación completo y el repositorio de GitHub.

Esta investigación ha sido financiada por el Ministerio Federal de Educación e Investigación de Alemania (BMBF) con los números de subvención 01IS17046 y 01QE2056C, así como por el Ministerio de Cultura y Ciencia de Renania del Norte-Westfalia, Alemania (MKW NRW) con el número de subvención NW21-. 059D. Esta investigación también fue financiada dentro del proyecto de investigación QA4CB – Entwicklung von Question-Answering-Komponenten zur Erweiterung des Chatbot-Frameworks.

Lingua Franca: enfoque de traducción automática con reconocimiento de entidades para responder preguntas a través de gráficos de conocimiento | de Aleksandr Perevalov | enero de 2024

ByEquipo de 7 minutos

Hacia una lengua franca para los sistemas de respuesta a preguntas de gráficos de conocimiento

By Equipo de 7 minutos

Related Post

Anthropic desactiva Claude Fable 5 y Mythos 5 después de una orden del gobierno de EE. UU.

¿Es el lenguaje visual? Un experimento con caracteres chinos

Moonshot AI lanza Kimi K2.7-Code: un modelo de codificación que reporta un +21,8 % en Kimi Code Bench v2 sobre K2.6

You missed

Anthropic desactiva Claude Fable 5 y Mythos 5 después de una orden del gobierno de EE. UU.

¿Cómo pueden los jugadores de fútbol doblar sus tiros en el aire?

El líder del PP asume el fin del sanchismo: “Su epitafio está ya escrito: PS, las siglas de un fariseo que no cumplió nada de lo que prometió”

Con el gobierno furioso contra la autoridad aeroportuaria, el número de pasajeros de Palma aumentó un cinco por ciento en mayo