Cómo encontrar el mejor modelo de integración multilingüe para su RAG |  de Iulia Brezeanu |  enero de 2024

Optimice el espacio de incrustación para mejorar RAG

Imagen del autor. IA generada.

Las incrustaciones son representaciones vectoriales que capturan el significado semántico de palabras u oraciones. Además de tener datos de calidad, elegir un buen modelo de integración es el paso más importante y subestimado para optimizar su aplicación RAG. Los modelos multilingües son especialmente desafiantes ya que la mayoría están previamente entrenados con datos en inglés. Las incrustaciones adecuadas marcan una gran diferencia: ¡no te quedes con el primer modelo que veas!

El espacio semántico determina las relaciones entre palabras y conceptos. Un espacio semántico preciso mejora el rendimiento de la recuperación. Las incrustaciones inexactas dan lugar a fragmentos irrelevantes o a información faltante. Un mejor modelo mejora directamente las capacidades de su sistema RAG.

En este artículo, crearemos un conjunto de datos de preguntas y respuestas a partir de documentos PDF para encontrar el mejor modelo para nuestra tarea e idioma. Durante RAG, si se recupera la respuesta esperada, significa que el modelo de incorporación ubicó la pregunta y la respuesta lo suficientemente cerca en el espacio semántico.

Si bien nos centramos en francés e italiano, el proceso se puede adaptar a cualquier idioma porque las mejores incorporaciones pueden diferir.

Incrustar modelos

Hay dos tipos principales de modelos de incrustación: estáticos y dinámicos. Incrustaciones estáticas como word2vec genera un vector para cada palabra. Los vectores se combinan, a menudo promediando, para crear una incrustación final. Estos tipos de incrustaciones ya no se utilizan con frecuencia en producción porque no consideran cómo el significado de una palabra puede cambiar en función de las palabras que la rodean.

Incrustaciones dinámicas se basan en Transformers como BERT, que incorporan conciencia del contexto a través de capas de autoatención, lo que les permite representar palabras en función del contexto circundante.

La mayoría de los modelos mejorados actuales utilizan el aprendizaje contrastivo. El modelo aprende similitudes semánticas al ver pares de texto positivos y negativos durante el entrenamiento.