11bdflmaa3rfmlhlgf8qfeq.jpeg

Descubra cómo crear evaluadores de LLM personalizados para necesidades específicas del mundo real.

Imagen generada por DALLE-3 | Inspecciones de robots en estilo isométrico.

Teniendo en cuenta los rápidos avances en el campo de las “cadenas”, “agentes”, chatbots y otros casos de uso de la IA generadora de texto de LLM, evaluar el rendimiento de los modelos de lenguaje es crucial para comprender sus capacidades y limitaciones. Especialmente crucial poder adaptar esas métricas según los objetivos del negocio.

Si bien las métricas estándar como la perplejidad, las puntuaciones BLEU y la distancia de la oración proporcionan una indicación general del rendimiento del modelo, según mi experiencia, a menudo tienen un rendimiento inferior a la hora de captar los matices y requisitos específicos de las aplicaciones del mundo real.

Por ejemplo, tomemos una sencilla aplicación RAG QA. Al construir un sistema de preguntas y respuestas, los factores de los llamados Tríada RAG« También son importantes la relevancia del contexto, la base en los hechos y la coherencia del lenguaje entre la consulta y la respuesta. Las métricas estándar simplemente no pueden capturar estos aspectos matizados de manera efectiva.

Aquí es donde las métricas «Blackbox» basadas en LLM resultan útiles. Si bien la idea puede parecer ingenua, el concepto detrás de las métricas de “caja negra” basadas en LLM es bastante convincente. Estas métricas utilizan el poder de los propios modelos de lenguaje grandes para evaluar la calidad y otros aspectos del texto generado. Al utilizar un modelo de lenguaje previamente entrenado como «juez», podemos evaluar el texto generado de acuerdo con la comprensión del lenguaje por parte del modelo de lenguaje y los criterios predefinidos.

En este artículo, mostraré el ejemplo de un extremo a otro de cómo construir el mensaje, ejecutar y realizar un seguimiento de la evaluación.

Dado que LangChain es de facto el marco más popular para crear chatbots y RAG, crearé el ejemplo de aplicación en él. Será más fácil de integrar en MVP y tiene capacidades de evaluación simples en su interior. Sin embargo, puede utilizar cualquier otro marco que desee o crear el suyo propio.
Valor principal del artículo: canalización e indicaciones.

Profundicemos en el código y exploremos el proceso de creación de evaluadores personalizados. Analizaremos algunos ejemplos clave y discutiremos sus implementaciones.

Ejemplo #1 |…