No es un problema de calidad de los datos. No es un problema de entrenamiento. No es un problema que pueda resolver con más RLHF, mejor filtrado o una ventana de contexto más grande. Es una propiedad estructural de lo que estos sistemas están optimizados para hacer.
He ocupado este puesto durante meses y la reacción es predecible: los investigadores que trabajan en el aumento de la recuperación, el ajuste de los canales y las técnicas de alineación preferirían un marco más optimista. Entiendo por qué.
Lo que ha faltado en este argumento es la geometría. La intuición sobre los objetivos y la arquitectura es necesaria pero no suficiente. Necesitamos abrir el modelo y observar lo que realmente sucede dentro cuando un sistema produce una respuesta incorrecta y segura. No en los logits. No en los patrones de atención. En la trayectoria interna de la propia representación, capa por capa, desde la entrada hasta la salida. Eso es lo que hizo el trabajo que presento aquí.
Lo que la corriente residual sabe antes de que mienta el modelo
La configuración es muy sencilla. Tomamos un mensaje factual (del tipo en el que un transformador debería recuperar una asociación almacenada) y lo ejecutamos en dos condiciones: una en la que el modelo produce la respuesta correcta y otra en la que produce una respuesta incorrecta y segura (alucinación). Luego, rastreamos la trayectoria de la corriente residual (el vector de representación interna) capa por capa a través de la red. La pregunta es: ¿estas dos trayectorias divergen porque el modelo simplemente carece de la asociación relevante? ¿O está sucediendo algo más específico?
Para entender lo que eso significa, piense en el estado interno del modelo en cada capa como un punto en el espacio: un espacio de alta dimensión. A medida que el modelo procesa una indicación, ese punto se mueve. Traza un camino. Lo que el experimento mide es si el camino tomado durante una respuesta correcta y el camino tomado durante una alucinación divergen porque un camino es más corto (el modelo se queda sin información) o porque van en direcciones diferentes mientras recorren la misma distancia.
La respuesta es la segunda. Los caminos tienen la misma longitud. Señalan diferentes lugares. Eso es lo que muestra la Figura 1: dos trayectorias que parten del mismo origen, recorren la misma distancia y llegan a diferentes extremos del espacio. Uno hacia la respuesta correcta. Uno lejos de eso.
El ratio de compromiso: donde la represión se hace visible
El artículo presenta una métrica llamada índice de compromiso κ: esencialmente, qué parte de la masa de probabilidad del modelo se dirige activamente hacia o desde el token correcto en cada capa.
En el procesamiento correcto, κ aumenta monótonamente a través de la red (Figura 2: curvas rojas, azules y gris oscuro). El modelo genera progresivamente el compromiso con la respuesta correcta. Esto es lo que se esperaría de un sistema que recupera una asociación aprendida.
En las alucinaciones sucede algo diferente. κ no simplemente permanece plano, lo que indicaría un fallo en la recuperación: la ausencia del patrón estadístico relevante. En cambio, κ colapsa (curvas discontinuas en la Figura 2). En todos los modelos probados, κ alcanza un mínimo significativamente por debajo de su valor inicial antes de recuperarse ligeramente en las capas finales. En LLaMA-2 13B y Mistral 7B baja a κ_min = 0,08. Los valores p están por debajo de 10⁻¹⁰⁰. Este no es un efecto “sutil”.
¿Lo que está sucediendo? El modelo no deja de encontrar la respuesta correcta. Está alejando activamente la masa de probabilidad del token correcto en las mismas capas donde estaría moviendo la masa de probabilidad hacia él en las condiciones correctas. El fallo es básicamente una anulación.
El modelo ha codificado la respuesta correcta. Eso es lo que hace que el colapso de κ sea significativo. Si el modelo simplemente careciera de la asociación relevante (si “París” nunca estuviera estadísticamente conectada con “capital de Francia” en las ponderaciones) veríamos una trayectoria plana o ruidosa. Nada que reprimir. La geometría no sería informativa.
Lo que vemos en cambio es una trayectoria que comienza en la dirección correcta (todas las curvas en la Figura 2 comienzan básicamente en el mismo punto) pero luego gira. El token correcto acumula probabilidad en las primeras capas, como lo hace la ejecución correcta, y luego la pierde en las capas intermedias, exactamente a la profundidad donde debería elevarse en las condiciones correctas (curvas roja, azul y gris oscuro en la Figura 1). ¿Por qué? La respuesta honesta es que el artículo establece el qué con precisión y deja abierto el por qué. Pero la interpretación más plausible es la competencia. Estos modelos no recuperan hechos aislados. Están prediciendo el próximo token en un contexto, y el contexto genera su propia presión. Una oración que ha ido en una dirección particular (estilística, temática y sintáctica) crea un fuerte precedente sobre cómo debe continuar. Cuando la respuesta objetivamente correcta entra en conflicto con ese atractor contextual, el modelo no lanza una moneda. La señal contextual, que es densa y continua a lo largo de toda la secuencia, puede superar a la señal objetiva, que puede ser escasa en los datos de entrenamiento.
La señal de entrenamiento nunca le dijo explícitamente al modelo que prefiriera la coherencia a la precisión. Le dijo al modelo que predijera el siguiente token. La coherencia y la precisión suelen estar alineadas. Cuando no es así, lo que obtenemos es la línea gris discontinua en la Figura 2.
El modelo no miente. Está haciendo exactamente aquello para lo que fue optimizado. Esa es la parte incómoda.
Tres regímenes
Uno de los hallazgos empíricos más claros es que los siete modelos no se distribuyen continuamente a lo largo de ningún eje del comportamiento de alucinación. Se dividen en tres grupos distintos:
Los modelos entre 1.6B y 3B muestran una supresión intermedia. El colapso κ está presente pero es menos profundo. StableLM-2 1.6B alcanza κ_min = 0,32 en lugar de 0,08. Luego está Gemma 2 2B, que coincide con la profundidad de supresión de LLaMA-2 13B y Mistral 7B a pesar de tener una fracción de sus parámetros (κ_min = 0,08, p < 10⁻⁹¹).
Algo real está sucediendo arquitectónicamente, no sólo en función de la escala. Las opciones arquitectónicas (mecanismos de atención, normalización, diseño de capas) deciden la profundidad de supresión del techo independientemente del recuento de parámetros. Esta es una estructura de fases.
Detectar alucinaciones
Hemos mapeado, con precisión geométrica, cómo falla una clase específica de sistema. La cuestión causal (qué circuitos específicos implementan la supresión y por qué) sigue abierta. Ese es el siguiente problema. Lo que establece la geometría es que la supresión no es accidental. No es un error de calibración que pueda solucionarse con mejores indicaciones o una tasa de aprendizaje diferente. Es una propiedad emergente de los sistemas optimizados para la predicción del próximo token. La coherencia contextual y la precisión fáctica son objetivos diferentes. Cuando entran en conflicto, la señal de entrenamiento no decide entre ellos. La anulación es cómo se ve ese conflicto desde adentro.
La implicación práctica es directa. Puede utilizar esta firma geométrica para construir detectores de alucinaciones: sondas que identifican eventos de supresión antes de que lleguen a la salida. Funcionan bien. Pero son locales. Una sonda entrenada en la recuperación de hechos no se transfiere claramente a tareas de razonamiento o a diferentes dominios de conocimiento. La geometría cambia lo suficiente como para que la detección se degrade. Esto no es un error en el enfoque. Es información. Le indica que el monitoreo debe ser específico del dominio, calibrado según el contexto de implementación, no instalado una vez y olvidado.
Para cualquiera que construya sistemas de producción a escala, esa es la conclusión operativa: un monitor por dominio, capacitado con datos representativos de ese dominio. La alternativa, un único detector universal, no está respaldada por pruebas.
Lo que la geometría no puede arreglar
El mecanismo de anulación que documenta este trabajo no es un “error en espera de ser corregido”. Es una consecuencia directa de la función objetivo utilizada para la formación de LLM. La predicción del siguiente token sobre secuencias discretas no le da al modelo ningún mecanismo para privilegiar la precisión fáctica sobre la coherencia contextual. La señal de entrenamiento no puede diferenciarlos. El modelo aprende a hablar con fluidez, lo cual es bastante notable. El problema es que la fluidez y la precisión suelen coincidir. Cuando no lo hacen, gana la fluidez. Es un mecanismo de resolución de conflictos que produce un resultado equivocado. La geometría te muestra el momento en que ocurre esa decisión.
Para responder a la pregunta causal (qué circuitos específicos implementan la supresión y si pueden modificarse) necesitamos parches de activación a escala, análisis a nivel de circuito e, idealmente, experimentos de intervención causal que vayan más allá de la evidencia correlacional que proporciona este artículo. Ese es el siguiente paso. Varios grupos están trabajando en ello.
Si la respuesta a esa pregunta causal nos permitiría fijar la alucinación dentro del paradigma arquitectónico actual es un asunto diferente. Mi opinión es que no lo sería, no fundamentalmente. Podemos suprimir la represión. Podemos agregar una capa de monitoreo que detecte el colapso de κ antes de que llegue a la salida. Podemos realizar ajustes en los ámbitos donde el conflicto es más agudo. Estas son mejoras reales. Pero la tensión subyacente entre la predicción contextual y la fundamentación fáctica no desaparece hasta que el modelo tiene representaciones del mundo que no se derivan de una coocurrencia simbólica. Eso requiere una arquitectura diferente.
Por qué este trabajo es importante de todos modos
Una infraestructura que caracterice con precisión los modos de falla de los LLM actuales es un paso necesario para la transición a otros mejores. No podemos diseñar una arquitectura sucesora sin comprender, en detalle, qué está haciendo realmente el predecesor en su interior. Este trabajo nos dice algo concreto:
En los LLM autorregresivos (arquitectura de transformadores), la geometría del procesamiento fáctico correcto e incorrecto diverge rotacionalmente, no magnitudnalmente; la divergencia es activa más que pasiva; la profundidad de la supresión está determinada arquitectónicamente, no puramente una función de escala; la firma geométrica se transfiere a través de dominios con una degradación sistemática pero limitada.
La geometría no miente. Lo que elijamos hacer con él es una cuestión diferente.
El código, los datos y los documentos relacionados estarán disponibles pronto en cert-framework.com.
Lectura recomendada
Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov y Shan Carter. 2020. Ampliar: Introducción a los circuitos. Destilar, 5(3):e00024–001. Nelson Elhage, Neel Nanda, Catherine Olsson, Tom Henighan, Nicholas Joseph, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish y Chris Olah. 2021. Un marco matemático para circuitos de transformadores. Hilo de circuitos de transformadores. https://transformercircuits.pub/2021/framework/index.html Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever y Dario Amodei. 2020. Los modelos de lenguaje son pocos aprendices. En Advances in Neural Information Processing Systems 33: Conferencia anual sobre sistemas de procesamiento de información neuronal 2020, NeurIPS 2020, del 6 al 12 de diciembre de 2020, virtual. Bereska, L. y Gavves, E. (2024). Interpretabilidad mecanicista para la seguridad de la IA: una revisión. Preimpresión de arXiv arXiv:2404.14082. Guillaume Alain y Yoshua Bengio. Comprensión de las capas intermedias mediante sondas clasificadoras lineales. ICLR, 2016.