Una guía de alto nivel para las métricas de evaluación de LLM | de David Hundley

Desarrollar una comprensión de una variedad de puntos de referencia y puntajes de LLM, incluida una intuición de cuándo pueden ser valiosos para su propósito.

17 minutos de lectura

hace 17 horas

Parece que casi semanalmente se lanza al público un nuevo modelo de lenguaje grande (LLM). Con cada anuncio de un LLM, estos proveedores promocionarán cifras de rendimiento que pueden parecer bastante impresionantes. El desafío que encontré es que existe una amplia variedad de métricas de desempeño a las que se hace referencia en estos comunicados de prensa. Si bien hay algunos que aparecen con más frecuencia que otros, desafortunadamente no existen simplemente una o dos métricas a las que recurrir. Si quieres ver un ejemplo tangible de esto, consulte la página para conocer el rendimiento de GPT-4. ¡Hace referencia a muchos puntos de referencia y puntuaciones diferentes!

La primera pregunta natural que uno podría hacerse es: “¿Por qué no podemos simplemente aceptar utilizar una única métrica?” En resumen, no existe una forma clara de evaluar el desempeño del LLM, por lo que cada métrica de desempeño busca proporcionar una evaluación cuantitativa para un dominio enfocado.. Además, muchas de estas métricas de rendimiento tienen “submétricas” que calculan la métrica de forma ligeramente diferente a la métrica original. Cuando originalmente comencé a investigar para esta publicación de blog, mi intención era cubrir cada uno de estos puntos de referencia y puntajes, pero rápidamente descubrí que si lo hiciera, ¡cubriríamos más de 50 métricas diferentes!

Debido a que evaluar cada métrica individual no es exactamente factible, lo que descubrí es que podemos dividir estos diversos puntos de referencia y puntajes en categorías de lo que generalmente están tratando de evaluar. En el resto de esta publicación, cubriremos estas diversas categorías y también brindaremos ejemplos específicos de métricas populares que se incluirían en cada una de estas categorías. El objetivo de esta publicación es que pueda terminarla con una idea general de qué métrica de rendimiento está evaluando para su caso de uso específico.

Las seis categorías que evaluaremos en esta publicación incluyen las siguientes. Tenga en cuenta: no existe un “estándar industrial” específico sobre cómo se crearon estas categorías. Estas categorías fueron creadas según la forma en que escucho que se hace referencia a ellas con mayor frecuencia:

Puntos de referencia de conocimientos generales

Una guía de alto nivel para las métricas de evaluación de LLM | de David Hundley | febrero de 2024

ByEquipo de 7 minutos

Desarrollar una comprensión de una variedad de puntos de referencia y puntajes de LLM, incluida una intuición de cuándo pueden ser valiosos para su propósito.

By Equipo de 7 minutos

Related Post

Escapar del valle de las opciones en BI

Parallax: una atención lineal local parametrizada que mantiene Softmax y agrega una rama de corrección de covarianza aprendida

Una implementación del kit de herramientas de gobernanza de agentes de Microsoft para el uso seguro de herramientas de agentes de IA con políticas, aprobaciones, registros de auditoría y controles de riesgos

You missed

Las historias sagradas siguen regresando a la sociedad occidental a pesar de la secularización

Próxima serie web en hindi que se lanzará en junio de 2026: Brown, Raakh y más

El ‘chocolate sexual’ se enfrenta a retiradas del mercado después de que pruebas de la FDA revelaran Viagra no divulgado

El corrupto ‘acuerdo’ de Trump con el IRS se topa con dos obstáculos judiciales