AutoBencher: un enfoque de inteligencia artificial basado en métricas para la construcción de nuevos conjuntos de datos para modelos lingüísticos
Este papel aborda el desafío de evaluar eficazmente los modelos de lenguaje (LM). La evaluación es crucial para evaluar las capacidades del modelo, hacer un seguimiento del progreso científico e…