REST: un marco de prueba de estrés para evaluar el razonamiento de problemas múltiples en modelos de razonamiento grandes
Los grandes modelos de razonamiento (LRM) han avanzado rápidamente, exhibiendo un rendimiento impresionante en tareas complejas de resolución de problemas en dominios como las matemáticas, la codificación y el razonamiento…