Screenshot 2024 05 08 At 11.20.35 Am.png

En el ámbito dinámico de la inteligencia artificial, el procesamiento del lenguaje natural (NLP) y la recuperación de información, las arquitecturas avanzadas como la recuperación de generación aumentada (RAG) han ganado una atención significativa. Sin embargo, la mayoría de los investigadores de ciencia de datos sugieren no lanzarse a modelos RAG sofisticados hasta que el proceso de evaluación sea completamente confiable y sólido.

Evaluar cuidadosamente las tuberías RAG es vital, pero con frecuencia se pasa por alto en la prisa por incorporar características de vanguardia. Se recomienda que los investigadores y profesionales fortalezcan su configuración de evaluación como máxima prioridad antes de abordar complejas mejoras del modelo.

Comprender los matices de la evaluación de los ductos RAG es fundamental porque estos modelos dependen tanto de las capacidades de generación como de la calidad de recuperación. Las dimensiones se han dividido en dos categorías importantes, que son las siguientes.

1. Dimensiones de recuperación

a. Precisión del contexto: Determina si cada elemento de verdad fundamental en el contexto tiene una clasificación de prioridad más alta que cualquier otro elemento.

b. Recordatorio de contexto: Evalúa el grado en que se corresponden la respuesta de la verdad sobre el terreno y el contexto recuperado. Depende del contexto recuperado así como de la verdad fundamental.

C. Relevancia del contexto: Evalúa los contextos que se ofrecen para valorar la relevancia del contexto recuperado.

d. Recuperación de entidad de contexto: Al comparar el número de entidades presentes en las verdades fundamentales y los contextos con el número de entidades presentes solo en las verdades fundamentales, la métrica de recuperación de entidades de contexto calcula la recuperación del contexto recuperado.

mi. Robustez al ruido: La métrica de Robustez del ruido evalúa la capacidad del modelo para manejar documentos sobre ruido relacionados con preguntas que no proporcionan mucha información.

2. Dimensiones generacionales

a. Fidelidad: Evalúa la coherencia fáctica de la respuesta generada de acuerdo con el contexto dado.

b. Relevancia de la respuesta Calcula qué tan bien responde la respuesta generada a la pregunta dada. Se otorgan puntos más bajos por respuestas que contienen información redundante o faltante, y viceversa.

C. Rechazo Negativo: Evalúa la capacidad del modelo para demorar la respuesta cuando los documentos que ha obtenido no incluyen información suficiente para atender una consulta.

d. Integración de información: Evalúa qué tan bien el modelo puede integrar datos de diferentes documentos para proporcionar respuestas a preguntas complejas.

mi. Robustez contrafactual: Evalúa la capacidad del modelo para reconocer e ignorar errores conocidos en los documentos, incluso cuando es consciente de una posible desinformación.

A continuación se muestran algunos marcos que constan de estas dimensiones a los que se puede acceder mediante los siguientes enlaces.

1. Ragas https://docs.ragas.io/en/stable/

2. TruLenshttps://www.trulens.org/

3. ARES https://ares-ai.vercel.app/

4. Evaluación profundahttps://docs.confident-ai.com/docs/getting-started

5. Validación tónica – https://docs.tonic.ai/validate

6. LangFuse https://langfuse.com/


Este artículo está inspirado en esto. Publicación de LinkedIn.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.