Por qué su RAG no es confiable en un entorno de producción | de Ahmed Besbes

Por qué su RAG no es confiable en un entorno de producción | de Ahmed Besbes | octubre de 2023

Con el auge de los LLM, la generación aumentada de recuperación (RAG) estructura También ganó popularidad al permitir construir sistemas de respuesta a preguntas a partir de datos.

Todos hemos visto esas demostraciones de chatbots conversando con archivos PDF o correos electrónicos.

Si bien estos sistemas son ciertamente impresionantes, es posible que no sean confiables en producción sin ajustes y experimentación.

En esta publicación, exploro los problemas detrás del marco RAG y repaso algunos consejos para mejorar su rendimiento. Esto va desde aprovechar los metadatos del documento hasta ajustar los hiperparámetros.

Estos hallazgos se basan en mi experiencia como ingeniero de aprendizaje automático que todavía está aprendiendo sobre esta tecnología y construyendo RAG en la industria farmacéutica.

Sin mucho más, echemos un vistazo 🔍

Primero aclaremos lo básico.

Así es como funciona RAG.

Primero toma una pregunta de entrada y recupera los documentos relevantes de una base de datos externa. Luego, pasa esos fragmentos como contexto en un mensaje para ayudar a un LLM a generar un aumentado respuesta.

Básicamente eso es decir:

“Hola LLM, aquí está mi pregunta y aquí hay algunos fragmentos de texto para ayudarlo a comprender el problema. Dame una respuesta.”

No debes dejarte engañar por la simplicidad de este diagrama.

De hecho, RAG esconde cierta complejidad e involucra los siguientes componentes detrás de escena:

Cargadores para analizar datos externos en diferentes formatos: PDF, sitios web, archivos Doc, etc.
Divisores para dividir los datos sin procesar en fragmentos de texto más pequeños
Un modelo de incrustación para convertir los fragmentos en vectores.
Una base de datos de vectores para almacenar los vectores y consultarlos.
Un mensaje para combinar la pregunta y los documentos recuperados.

Por qué su RAG no es confiable en un entorno de producción | de Ahmed Besbes | octubre de 2023

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El nuevo modelo de IA de DeepSeek se está implementando silenciosamente, sin causar shock en el mercado de Wall Street

Cursor presenta un SDK de TypeScript para crear agentes de codificación programática con máquinas virtuales en la nube protegidas, subagentes, enlaces y precios basados en tokens

IBM lanza dos modelos Granite Speech 4.1 2B: ASR autorregresivo con traducción y edición no autorregresiva para una inferencia rápida

You missed

IA para la civilización global: Diálogo China-Singapur celebrado en Singapur

El crecimiento económico de España desafía el impacto de la guerra en Oriente Medio

Kiara Advani canta Baby Shark durante las vacaciones con Sidharth Malhotra y su hija Saraayah

Muere a los 79 años el genetista pionero y decodificador del genoma humano J. Craig Venter