ReliabilityBench: medición del rendimiento impredecible de modelos de lenguaje grandes configurados en cinco dominios clave de la cognición humana
La investigación evalúa la confiabilidad de grandes modelos de lenguaje (LLM) como GPT, LLaMA y BLOOM, ampliamente utilizados en diversos dominios, incluidos la educación, la medicina, la ciencia y la…