En este artículo, le mostraré cómo crear su propio conjunto de datos RAG que consta de contextos, preguntas y respuestas de documentos en cualquier idioma.
Recuperación-Generación Aumentada (RAG) [1] es una técnica que permite a los LLM acceder a una base de conocimientos externa.
Al cargar archivos PDF y almacenarlos en una base de datos vectorial, podemos recuperar este conocimiento mediante una búsqueda de similitud de vectores y luego insertar el texto recuperado en el mensaje LLM como contexto adicional.
Esto proporciona al LLM nuevos conocimientos y reduce la posibilidad de que el LLM invente hechos (alucinaciones).
Sin embargo, hay muchos parámetros que debemos establecer en una tubería RAG, y los investigadores siempre sugieren nuevas mejoras. ¿Cómo sabemos qué parámetros elegir y qué métodos realmente mejorarán el rendimiento para nuestro caso de uso particular?
Es por eso que necesitamos un conjunto de datos de validación/desarrollo/prueba para evaluar nuestra canalización RAG. El conjunto de datos debe ser del dominio que nos interesa…