Se necesita un enfoque de evaluación sistemático y multifacético para evaluar la competencia de un modelo de lenguaje grande (LLM) en una capacidad determinada. Este método es necesario para identificar con precisión las limitaciones del modelo y las posibles áreas de mejora. La evaluación de los LLM se vuelve cada vez más difícil a medida que su evolución se vuelve más compleja y no pueden ejecutar una gama más amplia de tareas.
Los puntos de referencia de generación convencionales utilizan con frecuencia criterios de evaluación generales, incluida la utilidad y la inocuidad, que son imprecisos y superficiales en comparación con el juicio humano. Estos puntos de referencia suelen centrarse en tareas particulares, como seguir instrucciones, lo que conduce a una evaluación incompleta y sesgada del rendimiento general de los modelos.
Para abordar estos problemas, un equipo de investigadores ha desarrollado recientemente un punto de referencia de generación ético y exhaustivo llamado BIGGEN BENCH. Con 77 tareas diferentes, este punto de referencia tiene como objetivo medir nueve capacidades de modelos de lenguaje diferentes, brindando una evaluación más completa y precisa. Las nueve capacidades de los modelos de lenguaje que evalúa BIGGEN BENCH son las siguientes.
- Instrucciones siguientes
- Toma de tierra
- Planificación
- Razonamiento
- Refinamiento
- Seguridad
- Teoria de la mente
- Uso de herramientas
- Multilingüismo
La utilización por parte del BIGGEN BENCH de criterios de evaluación específicos de cada instancia es un componente clave. Este método es bastante similar a cómo los humanos hacen juicios complejos e intuitivamente sensibles al contexto. En lugar de proporcionar una puntuación genérica de utilidad, el punto de referencia puede evaluar qué tan bien un modelo de lenguaje aclara una idea matemática particular o qué tan bien tiene en cuenta las peculiaridades culturales en el trabajo de traducción.
BIGGEN BENCH puede identificar diferencias mínimas en el rendimiento de LM que los puntos de referencia más generales podrían pasar por alto al utilizar estos criterios específicos. Este enfoque matizado es crucial para una comprensión más precisa de las ventajas y desventajas de varios modelos.
Se han evaluado ciento tres LM de frontera, con valores de parámetros que oscilan entre mil millones y 141 mil millones, incluidos 14 modelos patentados, utilizando BIGGEN BENCH. En esta revisión exhaustiva participan cinco LM evaluadores independientes, lo que garantiza un proceso de evaluación exhaustivo y fiable.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- El proceso de construcción y evaluación de BIGGEN BENCH se ha descrito en profundidad, enfatizando que se utilizó una técnica de intervención humana para crear cada instancia.
- El equipo ha informado sobre los resultados de la evaluación de 103 modelos de lenguaje, lo que demuestra que la evaluación detallada logra mejoras consistentes en el rendimiento con el escalamiento del tamaño del modelo. También demuestra que, si bien la capacidad de seguir instrucciones aumenta considerablemente, persisten brechas de razonamiento y uso de herramientas entre los distintos tipos de LM.
- La confiabilidad de estas evaluaciones se ha estudiado comparando las puntuaciones de los LM de los evaluadores con evaluaciones humanas, y se han encontrado correlaciones estadísticamente sustanciales para todas las capacidades. Se han explorado diferentes enfoques para mejorar los LM de los evaluadores de código abierto para cumplir con el rendimiento de GPT-4, garantizando evaluaciones imparciales y fácilmente legibles.
Revisar la Papel, Conjunto de datosy Resultados de evaluación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.