Cómo usar LLM para evaluaciones automáticas potentes

Discuta cómo puede realizar evaluaciones automáticas utilizando LLM como juez. Los LLM se usan ampliamente hoy para una variedad de aplicaciones. Sin embargo, un aspecto a menudo subestimado de LLM es su caso de uso para la evaluación. Con LLM como juez, utiliza LLM para juzgar la calidad de un resultado, ya sea dando un puntaje entre 1 y 10, comparando dos salidas, o proporcionar retroalimentación de aprobación/falla. El objetivo del artículo es proporcionar información sobre cómo puede utilizar LLM como juez para su propia aplicación, para que el desarrollo sea más efectivo.

Esta infografía destaca el contenido de mi artículo. Imagen de Chatgpt.

También puedes leer Mi artículo sobre Benchmarking LLMS con arco agi 3 Y mira Mi sitio web, que contiene toda mi información y artículos.

Tabla de contenido

Motivación

Mi motivación para escribir este artículo es que trabajo diariamente en diferentes aplicaciones LLM. He leído cada vez más sobre el uso de LLM como juez, y comencé a leer sobre el tema. Creo que utilizar LLM para evaluaciones automatizadas de sistemas de aprendizaje automático es un aspecto súper poderoso de los LLM que a menudo se subestima.

El uso de LLM como juez puede ahorrarle enormes cantidades de tiempo, teniendo en cuenta que puede automatizar parte o el proceso de evaluación completo o todo. Las evaluaciones son críticas para los sistemas de aprendizaje automático para garantizar que funcionen según lo previsto. Sin embargo, las evaluaciones también requieren mucho tiempo y, por lo tanto, desea automatizarlas tanto como sea posible.

Un poderoso caso de uso de ejemplo para LLM como juez está en un sistema de preguntas. Puede recopilar una serie de ejemplos de entrada-salida para dos versiones diferentes de un aviso. Luego, puede pedirle al juez de LLM que responda con si las salidas son iguales (o la última salida de versión rápida es mejor) y, por lo tanto, garantizar que los cambios en su aplicación no tengan un impacto negativo en el rendimiento. Esto puede, por ejemplo, ser utilizado previo a la implementación de nuevas indicaciones.

Definición

Defino LLM como juez, como cualquier caso en el que solicite una LLM que evalúe la salida de un sistema. El sistema está principalmente basado en el aprendizaje automático, aunque esto no es un requisito. Simplemente proporcione a la LLM un conjunto de instrucciones sobre cómo evaluar el sistema, proporcionando información como lo que es importante para la evaluación y qué métrica de evaluación debe usarse. La salida se puede procesar para continuar la implementación o detener la implementación porque la calidad se considera más baja. Esto elimina el paso que requiere mucho tiempo e inconsistente de revisar manualmente las salidas de LLM antes de realizar cambios en su aplicación.

LLM como métodos de evaluación de juez

LLM como juez se puede utilizar para una variedad de aplicaciones, como:

  • Sistemas de contestadores de preguntas
  • Sistemas de clasificación
  • Sistemas de extracción de información

Las diferentes aplicaciones requerirán diferentes métodos de evaluación, por lo que describiré tres métodos diferentes a continuación.

Compare dos salidas

Comparar dos salidas es un gran uso de LLM como juez. Con esta métrica de evaluación, compara la salida de dos modelos diferentes.

La diferencia entre los modelos puede, por ejemplo, ser:

  • Diferentes indicaciones de entrada
  • Diferentes LLM (es decir, OpenAI GPT4O vs Claude Sonnet 4.0)
  • Diferentes modelos de incrustación para trapo

Luego proporciona al juez de LLM cuatro elementos:

  • El indicador (s) de entrada (s)
  • Salida del modelo 1
  • Salida del modelo 2
  • Instrucciones sobre cómo realizar la evaluación

Luego puede pedirle al juez de LLM que proporcione una de las tres salidas siguientes:

  • Igual (la esencia de las salidas es la misma)
  • Salida 1 (el primer modelo es mejor)
  • Salida 2 (el segundo modelo es mejor).

Puede, por ejemplo, usar esto en el escenario que describí anteriormente, si desea actualizar el indicador de entrada. Luego puede asegurarse de que el mensaje actualizado sea igual o mejor que el aviso anterior. Si el juez de LLM le informa que todas las muestras de prueba son iguales o que el nuevo aviso es mejor, es probable que pueda implementar automáticamente las actualizaciones.

Salida de puntaje

Otra métrica de evaluación que puede usar para LLM como juez es proporcionar a la salida una puntuación, por ejemplo, entre 1 y 10. En este escenario, debe proporcionar al juez de LLM lo siguiente:

  • Instrucciones para realizar la evaluación
  • El mensaje de entrada
  • La salida

En este método de evaluación, es fundamental proporcionar instrucciones claras al juez de LLM, considerando que proporcionar una puntuación es una tarea subjetiva. Recomiendo encarecidamente proporcionar ejemplos de resultados que se parezcan a una puntuación de 1, una puntuación de 5 y una puntuación de 10. Esto proporciona al modelo con diferentes anclajes que puede utilizar para proporcionar una puntuación más precisa. También puede intentar usar menos puntajes posibles, por ejemplo, solo puntajes de 1, 2 y 3. Menos opciones aumentarán la precisión del modelo, a costa de hacer que las diferencias más pequeñas sean más difíciles de diferenciar, debido a una menor granularidad.

La métrica de evaluación de puntuación es útil para ejecutar experimentos más grandes, comparando diferentes versiones, modelos de inmediato, etc. Luego puede utilizar el puntaje promedio en una prueba más amplia establecida para juzgar con precisión qué enfoque funciona mejor.

Pasar/fallar

Pase o fallas es otra métrica de evaluación común para LLM como juez. En este escenario, le pide al juez de LLM que apruebe o desapruebe la producción, dada una descripción de lo que constituye un pase y lo que constituye un fracaso. Similar a la evaluación de puntuación, esta descripción es fundamental para el desempeño del juez de LLM. Nuevamente, recomiendo usar ejemplos, esencialmente utilizar un aprendizaje de pocos disparos para que el juez de LLM sea más preciso. Puedes leer más sobre el aprendizaje de pocos disparos en Mi artículo sobre ingeniería de contexto.

La métrica de evaluación de fallas de aprobación es útil para que los sistemas RAG juzguen si un modelo respondió correctamente una pregunta. Puede, por ejemplo, proporcionar los trozos recuperados y la salida del modelo para determinar si el sistema RAG responde correctamente.

Notas importantes

Comparar con un evaluador humano

También tengo algunas notas importantes con respecto a LLM como juez, de trabajar en él yo mismo. El aprendizaje número uno es que si bien LLM como sistema de juez puede ahorrarle grandes cantidades de tiempo, también puede ser poco confiable. Al implementar el juez de LLM, debe probar el sistema manualmente, asegurando que el LLM como sistema de juez responda de manera similar a un evaluador humano. Esto debería realizarse preferiblemente como una prueba ciega. Por ejemplo, puede configurar una serie de ejemplos de aprobación/falla, y ver con qué frecuencia el sistema de jueces LLM está de acuerdo con el evaluador humano.

Costo

Otra nota importante a tener en cuenta es el costo. El costo de las solicitudes de LLM está en tendencia hacia abajo, pero al desarrollar un sistema de Juez LLM, también está realizando muchas solicitudes. Por lo tanto, tendría esto en cuenta y realizaría estimaciones sobre el costo del sistema. Por ejemplo, si cada LLM como juez se ejecuta cuesta 10 USD, y usted, en promedio, realiza cinco de esas carreras al día, incurre en un costo de 50 USD por día. Es posible que deba evaluar si este es un precio aceptable para un desarrollo más efectivo, o si debe reducir el costo de la LLM como sistema de juez. Por ejemplo, puede reducir el costo utilizando modelos más baratos (GPT-4O-Mini en lugar de GPT-4O), o reducir el número de ejemplos de prueba.

Conclusión

En este artículo, he discutido cómo funciona LLM como juez y cómo puede utilizarlo para que el desarrollo sea más efectivo. LLM como juez es un aspecto a menudo pasado por alto de LLMS, que puede ser increíblemente poderoso, por ejemplo, previos a los despliegue para garantizar que su sistema de respuesta de preguntas aún funcione en consultas históricas.

Discutí diferentes métodos de evaluación, con cómo y cuándo debe utilizarlos. LLM como juez es un sistema flexible, y debe adaptarlo a cualquier escenario que esté implementando. Por último, también discutí algunas notas importantes, por ejemplo, comparando al juez de LLM con un evaluador humano.

👉 Encuéntrame en Socials:

🧑‍💻 Ponerse en contacto

🔗 LinkedIn

🐦 X / Twitter

✍️ Medio