Una nueva investigación de Anthropic muestra que Claude puede detectar conceptos inyectados, pero sólo en capas controladas
¿Cómo se puede saber si un modelo realmente está notando su propio estado interno en lugar de simplemente repetir lo que dicen los datos de entrenamiento sobre el pensamiento? En…