Una guía de alto nivel para las métricas de evaluación de LLM |  de David Hundley |  febrero de 2024

Desarrollar una comprensión de una variedad de puntos de referencia y puntajes de LLM, incluida una intuición de cuándo pueden ser valiosos para su propósito.

17 minutos de lectura

hace 17 horas

Tarjeta de título creada por el autor.

Parece que casi semanalmente se lanza al público un nuevo modelo de lenguaje grande (LLM). Con cada anuncio de un LLM, estos proveedores promocionarán cifras de rendimiento que pueden parecer bastante impresionantes. El desafío que encontré es que existe una amplia variedad de métricas de desempeño a las que se hace referencia en estos comunicados de prensa. Si bien hay algunos que aparecen con más frecuencia que otros, desafortunadamente no existen simplemente una o dos métricas a las que recurrir. Si quieres ver un ejemplo tangible de esto, consulte la página para conocer el rendimiento de GPT-4. ¡Hace referencia a muchos puntos de referencia y puntuaciones diferentes!

La primera pregunta natural que uno podría hacerse es: “¿Por qué no podemos simplemente aceptar utilizar una única métrica?” En resumen, no existe una forma clara de evaluar el desempeño del LLM, por lo que cada métrica de desempeño busca proporcionar una evaluación cuantitativa para un dominio enfocado.. Además, muchas de estas métricas de rendimiento tienen “submétricas” que calculan la métrica de forma ligeramente diferente a la métrica original. Cuando originalmente comencé a investigar para esta publicación de blog, mi intención era cubrir cada uno de estos puntos de referencia y puntajes, pero rápidamente descubrí que si lo hiciera, ¡cubriríamos más de 50 métricas diferentes!

Debido a que evaluar cada métrica individual no es exactamente factible, lo que descubrí es que podemos dividir estos diversos puntos de referencia y puntajes en categorías de lo que generalmente están tratando de evaluar. En el resto de esta publicación, cubriremos estas diversas categorías y también brindaremos ejemplos específicos de métricas populares que se incluirían en cada una de estas categorías. El objetivo de esta publicación es que pueda terminarla con una idea general de qué métrica de rendimiento está evaluando para su caso de uso específico.

Las seis categorías que evaluaremos en esta publicación incluyen las siguientes. Tenga en cuenta: no existe un “estándar industrial” específico sobre cómo se crearon estas categorías. Estas categorías fueron creadas según la forma en que escucho que se hace referencia a ellas con mayor frecuencia:

  1. Puntos de referencia de conocimientos generales