Evaluación de la precisión del LLM específico del lenguaje en el punto de referencia global Massive Multitask Language Understanding en Python
Tan pronto como se publica un nuevo LLM, la pregunta obvia que nos hacemos es la siguiente: ¿Es este LLM mejor que el que estoy usando actualmente?
Los LLM generalmente se evalúan según una gran cantidad de puntos de referencia, la mayoría de los cuales están solo en inglés.
Para los modelos multilingües, es muy raro encontrar métricas de evaluación para cada idioma específico que se encontraba en los datos de entrenamiento.
En ocasiones se publican métricas de evaluación para el modelo base y no para el modelo ajustado a las instrucciones. Y, por lo general, la evaluación no se realiza en el modelo de cuantificación que realmente utilizamos localmente.
Por lo tanto, es muy poco probable encontrar resultados de evaluación comparables de varios LLM en un idioma específico que no sea el inglés.
Por lo tanto, en este artículo, utilizaremos el conjunto de datos Global-MMLU para realizar nuestra propia evaluación utilizando el punto de referencia MMLU ampliamente utilizado en el idioma de nuestra elección.
Tabla de contenido
· El punto de referencia de comprensión masiva del lenguaje multitarea
∘ MMLU
∘ MMLU global
· Implementación de un LLM local con vLLM
·…