MathGAP: un punto de referencia de evaluación para el razonamiento matemático de los LLM utilizando la profundidad, la amplitud y la complejidad de la prueba controlada para tareas fuera de distribución
El aprendizaje automático ha mejorado considerablemente en la evaluación de modelos de lenguaje grandes (LLM) por sus capacidades de razonamiento matemático, especialmente en el manejo de tareas complejas de razonamiento…