Cómo crear un conjunto de datos de evaluación RAG a partir de documentos | de Dr. León Eversberg

Cómo crear un conjunto de datos de evaluación RAG a partir de documentos | de Dr. León Eversberg | noviembre de 2024

Cree automáticamente conjuntos de datos específicos de dominio en cualquier idioma utilizando LLM

La tarjeta del conjunto de datos de HuggingFace que muestra un conjunto de datos de evaluación RAG de ejemplo que generamos. — Nuestro conjunto de datos de evaluación RAG generado automáticamente en Hugging Face Hub (archivo de entrada PDF de la Unión Europea con licencia bajo CC POR 4.0). Imagen del autor

En este artículo, le mostraré cómo crear su propio conjunto de datos RAG que consta de contextos, preguntas y respuestas de documentos en cualquier idioma.

Recuperación-Generación Aumentada (RAG) [1] es una técnica que permite a los LLM acceder a una base de conocimientos externa.

Al cargar archivos PDF y almacenarlos en una base de datos vectorial, podemos recuperar este conocimiento mediante una búsqueda de similitud de vectores y luego insertar el texto recuperado en el mensaje LLM como contexto adicional.

Esto proporciona al LLM nuevos conocimientos y reduce la posibilidad de que el LLM invente hechos (alucinaciones).

Una descripción general del oleoducto RAG. Para almacenamiento de documentos: documentos de entrada -> fragmentos de texto -> modelo de codificador -> base de datos vectorial. Para solicitudes de LLM: pregunta del usuario -> modelo de codificador -> base de datos de vectores -> top-k fragmentos relevantes -> modelo de LLM generador. Luego, el LLM responde la pregunta con el contexto recuperado.” class=”bh ms ny c” width=”700″ height=”608″ loading=”lazy”/></picture></div><figcaption class=

Sin embargo, hay muchos parámetros que debemos establecer en una tubería RAG, y los investigadores siempre sugieren nuevas mejoras. ¿Cómo sabemos qué parámetros elegir y qué métodos realmente mejorarán el rendimiento para nuestro caso de uso particular?

Es por eso que necesitamos un conjunto de datos de validación/desarrollo/prueba para evaluar nuestra canalización RAG. El conjunto de datos debe ser del dominio que nos interesa…

Cómo crear un conjunto de datos de evaluación RAG a partir de documentos | de Dr. León Eversberg | noviembre de 2024

ByEquipo de 7 minutos

Cree automáticamente conjuntos de datos específicos de dominio en cualquier idioma utilizando LLM

By Equipo de 7 minutos

Related Post

El agente Hermes agrega subagentes asincrónicos, por lo que el trabajo delegado ya no bloquea el chat principal

Conozca Atoms: una herramienta de codificación de Vibe que utiliza agentes de inteligencia artificial para crear, implementar y comercializar su aplicación (sin código)

Sakana AI comercializa AB-MCTS en Sakana Marlin, un agente empresarial que genera informes de investigación de hasta 100 páginas con diapositivas

You missed

El autismo puede tener dos subtipos distintos que varían según la actividad cerebral

Trump no logró ninguno de sus objetivos en Irán

Por qué las citas online están fallando a hombres y mujeres – Dr. Stephen Whitehead

Colapso de techo en restaurante de Benalmádena « Euro Semanal Noticias