Evaluación de Anthrope de la fidelidad de la cadena de pensamiento: investigar el razonamiento oculto, los hacks de recompensa y las limitaciones de la transparencia verbal de IA en los modelos de razonamiento
Un avance clave en las capacidades de IA es el desarrollo y el uso del razonamiento de la cadena de pensamiento (COT), donde los modelos explican sus pasos antes de…