Por qué su RAG no es confiable en un entorno de producción |  de Ahmed Besbes |  octubre de 2023

Con el auge de los LLM, la generación aumentada de recuperación (RAG) estructura También ganó popularidad al permitir construir sistemas de respuesta a preguntas a partir de datos.

Todos hemos visto esas demostraciones de chatbots conversando con archivos PDF o correos electrónicos.

Si bien estos sistemas son ciertamente impresionantes, es posible que no sean confiables en producción sin ajustes y experimentación.

En esta publicación, exploro los problemas detrás del marco RAG y repaso algunos consejos para mejorar su rendimiento. Esto va desde aprovechar los metadatos del documento hasta ajustar los hiperparámetros.

Estos hallazgos se basan en mi experiencia como ingeniero de aprendizaje automático que todavía está aprendiendo sobre esta tecnología y construyendo RAG en la industria farmacéutica.

Sin mucho más, echemos un vistazo 🔍

Primero aclaremos lo básico.

Así es como funciona RAG.

Primero toma una pregunta de entrada y recupera los documentos relevantes de una base de datos externa. Luego, pasa esos fragmentos como contexto en un mensaje para ayudar a un LLM a generar un aumentado respuesta.

Básicamente eso es decir:

“Hola LLM, aquí está mi pregunta y aquí hay algunos fragmentos de texto para ayudarlo a comprender el problema. Dame una respuesta.”

Imagen del autor

No debes dejarte engañar por la simplicidad de este diagrama.

De hecho, RAG esconde cierta complejidad e involucra los siguientes componentes detrás de escena:

  • Cargadores para analizar datos externos en diferentes formatos: PDF, sitios web, archivos Doc, etc.
  • Divisores para dividir los datos sin procesar en fragmentos de texto más pequeños
  • Un modelo de incrustación para convertir los fragmentos en vectores.
  • Una base de datos de vectores para almacenar los vectores y consultarlos.
  • Un mensaje para combinar la pregunta y los documentos recuperados.