Cómo crear un conjunto de datos de evaluación RAG a partir de documentos | de Dr. León Eversberg | noviembre de 2024

Cree automáticamente conjuntos de datos específicos de dominio en cualquier idioma utilizando LLM

La tarjeta del conjunto de datos de HuggingFace que muestra un conjunto de datos de evaluación RAG de ejemplo que generamos.
Nuestro conjunto de datos de evaluación RAG generado automáticamente en Hugging Face Hub (archivo de entrada PDF de la Unión Europea con licencia bajo CC POR 4.0). Imagen del autor

En este artículo, le mostraré cómo crear su propio conjunto de datos RAG que consta de contextos, preguntas y respuestas de documentos en cualquier idioma.

Recuperación-Generación Aumentada (RAG) [1] es una técnica que permite a los LLM acceder a una base de conocimientos externa.

Al cargar archivos PDF y almacenarlos en una base de datos vectorial, podemos recuperar este conocimiento mediante una búsqueda de similitud de vectores y luego insertar el texto recuperado en el mensaje LLM como contexto adicional.

Esto proporciona al LLM nuevos conocimientos y reduce la posibilidad de que el LLM invente hechos (alucinaciones).

Una descripción general del oleoducto RAG. Para almacenamiento de documentos: documentos de entrada -> fragmentos de texto -> modelo de codificador -> base de datos vectorial. Para solicitudes de LLM: pregunta del usuario -> modelo de codificador -> base de datos de vectores -> top-k fragmentos relevantes -> modelo de LLM generador. Luego, el LLM responde la pregunta con el contexto recuperado.” class=”bh ms ny c” width=”700″ height=”608″ loading=”lazy”/></picture></div><figcaption class=El oleoducto RAG básico. Imagen del autor del artículo. “Cómo construir un chatbot LLM local de código abierto con RAG”

Sin embargo, hay muchos parámetros que debemos establecer en una tubería RAG, y los investigadores siempre sugieren nuevas mejoras. ¿Cómo sabemos qué parámetros elegir y qué métodos realmente mejorarán el rendimiento para nuestro caso de uso particular?

Es por eso que necesitamos un conjunto de datos de validación/desarrollo/prueba para evaluar nuestra canalización RAG. El conjunto de datos debe ser del dominio que nos interesa…