Una nueva investigación de Anthropic muestra que Claude puede detectar conceptos inyectados, pero sólo en capas controladas

¿Cómo se puede saber si un modelo realmente está notando su propio estado interno en lugar de simplemente repetir lo que dicen los datos de entrenamiento sobre el pensamiento? En el último estudio de investigación de Anthropic, ‘Conciencia introspectiva emergente en modelos de lenguaje grandes’, se pregunta si los modelos actuales de Claude pueden hacer más que hablar sobre sus habilidades: se pregunta si pueden notar cambios reales dentro de su red. Para eliminar conjeturas, el equipo de investigación no prueba solo con texto, sino que edita directamente las activaciones internas del modelo y luego le pregunta al modelo qué sucedió. Esto les permite diferenciar la introspección genuina de la autodescripción fluida.

Método, inyección conceptual como dirección de activación.

El método principal es la inyección de conceptos, descrita en el artículo sobre Circuitos de transformadores como una aplicación de dirección de activación. Los investigadores primero capturan un patrón de activación que corresponde a un concepto, por ejemplo, un estilo en mayúsculas o un sustantivo concreto, luego agregan ese vector a las activaciones de una capa posterior mientras el modelo responde. Si el modelo dice entonces que hay un pensamiento inyectado que coincide con X, esa respuesta se basa causalmente en el estado actual, no en un texto anterior de Internet. El equipo de investigación antrópica informa que esto funciona mejor en capas posteriores y con fuerza ajustada.

https://transformer-circuits.pub/2025/introspection/index.html

Resultado principal: alrededor del 20 por ciento de éxito con cero falsos positivos en los controles

Claude Opus 4 y Claude Opus 4.1 muestran el efecto más claro. Cuando la inyección se realiza en la banda de capas correcta y con la escala correcta, los modelos informan correctamente el concepto inyectado en aproximadamente el 20 por ciento de las pruebas. En las ejecuciones de control sin inyección, los modelos de producción no afirman falsamente detectar un pensamiento inyectado en más de 100 ejecuciones, lo que hace que la señal del 20 por ciento sea significativa.

Separar conceptos internos del texto del usuario

Una objeción natural es que el modelo podría estar importando la palabra inyectada al canal de texto. Los investigadores antrópicos lo prueban. El modelo recibe una oración normal, los investigadores inyectan un concepto no relacionado, como pan, en las mismas fichas, y luego le piden al modelo que nombre el concepto y repita la oración. Los modelos de Claude más potentes pueden hacer ambas cosas: mantienen intacto el texto del usuario y nombran el pensamiento inyectado, lo que muestra que el estado del concepto interno se puede informar por separado del flujo de entrada visible. Para los sistemas de estilo de agente, esta es la parte interesante, porque muestra que un modelo puede hablar sobre el estado adicional del que pueden depender las llamadas a herramientas o los agentes.

Precompletar, usando la introspección para decir lo que se pretendía

Otro experimento apunta a un problema de evaluación. Anthropic prellenó el mensaje del asistente con contenido que el modelo no planeó. Por defecto, Claude dice que el resultado no fue el previsto. Cuando los investigadores inyectan retroactivamente el concepto de coincidencia en activaciones anteriores, el modelo ahora acepta el resultado precargado como propio y puede justificarlo. Esto demuestra que el modelo está consultando un registro interno de su estado anterior para decidir la autoría, no sólo el texto final. Ése es un uso concreto de la introspección.

Conclusiones clave

La inyección de conceptos proporciona evidencia causal de introspección: Anthropic muestra que si se toma un patrón de activación conocido, se inyecta en las capas ocultas de Claude y luego se le pregunta al modelo qué está sucediendo, las variantes avanzadas de Claude a veces pueden nombrar el concepto inyectado. Esto separa la introspección real del juego de roles fluido. Los mejores modelos solo tienen éxito en un régimen estrecho: Claude Opus 4 y 4.1 detectan conceptos inyectados solo cuando el vector se agrega en la banda de capa correcta y con fuerza ajustada, y la tasa de éxito reportada es aproximadamente la misma escala declarada por Anthropic, mientras que las ejecuciones de producción muestran 0 falsos positivos en los controles, por lo que la señal es real pero pequeña. Los modelos pueden mantener separados el texto y los ‘pensamientos’ internos: en experimentos en los que se inyecta un concepto no relacionado encima del texto de entrada normal, el modelo puede repetir la frase del usuario e informar el concepto inyectado, lo que significa que el flujo de conceptos internos no se filtra simplemente al canal de texto. La introspección admite comprobaciones de autoría: cuando Anthropic precompletaba resultados que el modelo no pretendía, el modelo los rechazaba, pero si el concepto coincidente se inyectaba retroactivamente, el modelo aceptaba el resultado como propio. Esto muestra que el modelo puede consultar activaciones pasadas para decidir si quería decir algo. Esta es una herramienta de medición, no una afirmación de conciencia: el equipo de investigación enmarca el trabajo como una conciencia introspectiva funcional y limitada que podría alimentar futuras evaluaciones de transparencia y seguridad, incluidas aquellas sobre conciencia de evaluación, pero no afirman tener una conciencia general de uno mismo ni un acceso estable a todas las características internas.

La investigación de Anthropic ‘Conciencia introspectiva emergente en LLM’ es un avance de medición útil, no una gran afirmación metafísica. La configuración es limpia, inyecta un concepto conocido en activaciones ocultas mediante la dirección de activación y luego consulta el modelo para obtener un autoinforme fundamentado. Las variantes de Claude a veces detectan y nombran el concepto inyectado, y pueden mantener los “pensamientos” inyectados distintos del texto de entrada, lo cual es operativamente relevante para la depuración del agente y los registros de auditoría. El equipo de investigación también muestra un control intencional limitado de los estados internos. Las limitaciones siguen siendo fuertes, los efectos son limitados y la confiabilidad es modesta, por lo que el uso posterior debe ser evaluativo, no crítico para la seguridad.

Consulte el documento y los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.