Una nueva investigación de IA publica SWIM-IR: un conjunto de datos de recuperación multilingüe sintéticos a gran escala con 28 millones de pares de entrenamiento en 33 idiomas

Investigadores de Google Research, Google DeepMind y la Universidad de Waterloo presentan SWIM-IR, un conjunto de datos de entrenamiento de recuperación sintética que abarca 33 idiomas, y que aborda el desafío de los pares de entrenamiento limitados etiquetados por humanos en la recuperación multilingüe. Aprovechando el método SAP (resumir y luego preguntar), SWIM-IR está diseñado para permitir el ajuste sintético de modelos de recuperación densa multilingües sin supervisión humana. Los modelos SWIM-X, entrenados en SWIM-IR, demuestran competitividad con modelos de recuperación gruesa supervisados ​​por humanos en varios puntos de referencia, incluidos XOR-Retrieve, XTREME-UP y MIRACL.

El estudio aborda las limitaciones de los modelos multilingües de recuperación densa. Los modelos de recuperación multilingüe existentes enfrentan desafíos debido a datos de entrenamiento escasos o desiguales. SWIM-IR emplea SAP para ayudar a los LLM a generar consultas informativas en el idioma de destino. Los modelos SWIM-X, entrenados en SWIM-IR, exhiben un rendimiento competitivo con modelos supervisados ​​por humanos en varios puntos de referencia, destacando el potencial de los conjuntos de datos sintéticos como una alternativa rentable a los datos de entrenamiento etiquetados por humanos para modelos de recuperación densa multilingües.

La investigación aborda el éxito limitado de los modelos multilingües de recuperación densa, atribuyéndolo a datos insuficientes de entrenamiento supervisado para idiomas distintos del inglés. Este conjunto de datos sintéticos permite ajustar los modelos de recuperación densa multilingües, evaluados en puntos de referencia como XOR-Retrieve, XTREME-UP y MIRACL. Los resultados demuestran la eficacia de SWIM-IR a la hora de sustituir costosos datos de entrenamiento etiquetados por humanos, estableciendo un rendimiento competitivo para modelos de recuperación densa multilingües frente a sus homólogos supervisados ​​por humanos.

SWIM-IR, un conjunto de datos de entrenamiento de recuperación sintética que abarca 33 idiomas, se generó mediante la técnica SAP. Empleando SWIM-IR, el estudio explora el ajuste sintético de modelos de recuperación densa multilingües, adaptando el modelo de recuperación de pasajes densos (DPR). Utilizando el marco de recuperación T5X, replica las líneas de base de disparo cero de mContriever y mDPR inicializándose desde un punto de control de base T5 multilingüe y ajustando el conjunto de datos MS MARCO en inglés. Al realizar un entrenamiento previo en el conjunto de datos mC4 y emplear pérdida contrastiva para negativos en lotes, los investigadores utilizan el modelo PaLM 2 Small para la generación de consultas en varios idiomas.

Los modelos SWIM-X, basados ​​directamente en datos de entrenamiento sintéticos de SWIM-IR, exhiben un rendimiento competitivo en tareas de recuperación densa multilingües. SWIM-X (7M) supera a mContriever-X, el modelo mejor ajustado, por 7,1 puntos en Recall5kt en el punto de referencia XOR-Retrieve. Incluso la línea base de presupuesto limitado, SWIM-X (500k), supera a mContriever-X en 3,6 puntos. SWIM-X (180K) compite bien en el punto de referencia MIRACL, superando al mejor modelo de disparo cero por 6,6 puntos en nDCG10, aunque no alcanza a mContriever-X, que se beneficia de pares de entrenamiento etiquetados por humanos con negativos duros. Las líneas de base sintéticas SWIM-X (120K) y SWIM-X (120K)MT muestran resultados prometedores en líneas de base supervisadas en varios idiomas, superando a los modelos existentes en términos de Recall5kt. El estudio enfatiza la importancia de técnicas de entrenamiento optimizadas, incluido un mejor muestreo de negativos duros con SWIM-IR, para mejorar aún más el rendimiento de los modelos sintéticos.

El conjunto de datos SWIM-IR empleado en el estudio presenta limitaciones, incluida la descontextualización, el cambio de código, la calidad y duración del pasaje e inconsistencias fácticas en la generación de LLM. El estudio reconoce que los LLM pueden generar textos que carecen de una base suficiente para las fuentes de conocimiento, lo que plantea riesgos de desinformación y alucinaciones en los resultados generados. Si bien estas limitaciones pueden afectar la calidad y precisión de las consultas generadas, no afectan directamente la tarea de recuperación multilingüe posterior. Sin embargo, no analiza en profundidad las limitaciones de los métodos, como el enfoque SAP o el proceso de ajuste.

SWIM-IR es un conjunto de datos sintéticos de entrenamiento de recuperación multilingüe creado utilizando el enfoque SAP para generar consultas informativas en múltiples idiomas. Con 28 millones de pares de entrenamiento de pasajes de consulta en 33 idiomas, SWIM-IR facilita el ajuste de modelos de recuperación densa multilingües sin necesidad de datos de entrenamiento etiquetados por humanos. Los modelos SWIM-X resultantes exhiben un rendimiento competitivo en tareas de recuperación multilingües, superando los modelos de recuperación existentes y de rango recíproco medio en puntos de referencia monolingües y multilingües. Subraya el potencial de SWIM-IR como sustituto rentable de los costosos datos de entrenamiento de recuperación etiquetados por humanos, lo que permite el desarrollo de modelos robustos de recuperación densa multilingüe.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.