Un método geométrico para detectar alucinaciones sin un juez de LLM

de pájaros en vuelo.

No hay ningún líder. Sin mando central. Cada pájaro se alinea con sus vecinos: adapta la dirección, ajusta la velocidad y mantiene la coherencia mediante una coordinación puramente local. El resultado es un orden global que surge de la coherencia local.

Ahora imagina un pájaro volando con la misma convicción que los demás. Sus aleteos son seguros. Su velocidad es correcta. Pero su dirección no coincide con la de sus vecinos. Es el pájaro rojo.

No está perdido. No es dudar. Simplemente no pertenece al rebaño.

Las alucinaciones en los LLM son pájaros rojos.

El problema que realmente estamos tratando de resolver

Los LLM generan texto fluido y seguro que puede contener información inventada. Inventan casos legales que no existen. Citan artículos que nunca fueron escritos. Expresan hechos con el mismo tono, ya sean verdaderos o completamente inventados.

El enfoque estándar para detectar esto es pedirle a otro modelo de lenguaje que verifique el resultado. LLM-como-juez. Puedes ver el problema inmediatamente: estamos usando un sistema que alucina para detectar alucinaciones. Es como pedirle a alguien que no puede distinguir los colores que clasifique muestras de pintura. Ellos te darán una respuesta. Incluso puede que a veces sea correcto. Pero en realidad no ven lo que usted necesita que vean.

La pregunta que nos hicimos fue diferente: ¿podemos detectar alucinaciones a partir de la estructura geométrica del propio texto, sin necesidad de la opinión de otro modelo de lenguaje?

¿Qué hacen realmente las incrustaciones?

Antes de pasar al método de detección, quiero dar un paso atrás y establecer con qué estamos trabajando.

Cuando introduces texto en un codificador de oraciones, obtienes un vector, un punto en un espacio de alta dimensión. Los textos que son semánticamente similares se encuentran cerca unos de otros. Textos que no están relacionados se alejan mucho. Esto es para lo que se optimiza el entrenamiento contrastivo. Pero hay una estructura más sutil que simplemente “cosas similares están cerca”.

Considere lo que sucede cuando inserta una pregunta y su respuesta. La pregunta aterriza en algún lugar de este espacio de incrustaciones. La respuesta aterriza en otra parte. El vector que los conecta (lo que llamamos desplazamiento) apunta en una dirección particular. Tenemos un vector: una magnitud y un ángulo.

También observamos que para respuestas fundamentadas dentro de un dominio específico, estos vectores de desplazamiento apuntan en direcciones consistentes. Hemos encontrado algo en común: los ángulos.

Si hace cinco preguntas similares y obtiene cinco respuestas fundamentadas, los desplazamientos de una pregunta a una respuesta serán aproximadamente paralelos. No son idénticos (las magnitudes varían, los ángulos exactos difieren ligeramente), pero la dirección general es consistente.

Cuando una modelo alucina, sucede algo diferente. La respuesta todavía aterriza en algún lugar del espacio incrustado. Todavía es fluido. Todavía suena como una respuesta. Pero el desplazamiento no sigue el patrón local. Apunta a otra parte. Un vector con un ángulo totalmente diferente.

El pájaro rojo vuela con confianza. Pero no con el rebaño. Vuela en dirección contraria con un ángulo totalmente diferente al resto de aves.

Consistencia de desplazamiento (DC)

Formalizamos esto como Consistencia de Desplazamiento (DC). La idea es simple:

Construya un conjunto de referencia de pares de preguntas y respuestas fundamentados de su dominio. Para un nuevo par de preguntas y respuestas, encuentre las preguntas vecinas en el conjunto de referencia. Calcule la dirección de desplazamiento medio de esos vecinos. Mida qué tan bien se alinea el nuevo desplazamiento con esa dirección media.

Las respuestas fundamentadas se alinean bien. Las respuestas alucinadas no. Eso es todo. Una similitud coseno. No se necesitan documentos fuente en el momento de la inferencia. No hay varias generaciones. Sin partes internas del modelo.

Y funciona notablemente bien. A través de cinco modelos de incrustación arquitectónicamente distintos, a través de múltiples puntos de referencia de alucinaciones, incluidos HaluEval y TruthfulQA, DC logra una discriminación casi perfecta. Las distribuciones apenas se superponen.

El truco: localidad del dominio

Probamos DC en cinco modelos de integración elegidos para abarcar la diversidad arquitectónica: ajuste fino contrastivo basado en MPNet (all-mpnet-base-v2), preentrenamiento débilmente supervisado (E5-large-v2), entrenamiento ajustado por instrucciones con negativos duros (BGE-large-en-v1.5), adaptación de codificador-decodificador (GTR-T5-large) y arquitecturas eficientes de contexto largo (nomic-embed-text-v1.5). Si DC solo funcionara con una arquitectura, podría ser un artefacto de ese modelo específico. Los resultados consistentes entre modelos arquitectónicamente distintos sugerirían que la estructura es fundamental.

Los resultados fueron consistentes. DC logró un AUROC de 1,0 en los cinco modelos en nuestro punto de referencia sintético. Pero los puntos de referencia sintéticos pueden ser engañosos; tal vez las respuestas mezcladas entre dominios sean simplemente demasiado fáciles de detectar.

Por eso validamos conjuntos de datos de alucinaciones establecidos: HaluEval-QA, que contiene alucinaciones generadas por LLM diseñadas específicamente para ser sutiles; HaluEval-Dialogue, con respuestas que se desvían del contexto de la conversación; y TruthfulQA, que pone a prueba conceptos erróneos comunes en los que los humanos creen con frecuencia.

DC mantuvo una perfecta discriminación sobre todos ellos. Degradación cero desde puntos de referencia sintéticos a realistas.

A modo de comparación, los métodos basados ​​en ratios que miden dónde llegan las respuestas en relación con las consultas (en lugar de la dirección en la que se mueven) lograron un AUROC de entre 0,70 y 0,81. La brecha (aproximadamente 0,20 AUROC absoluto) es sustancial y consistente en todos los modelos probados.

Las distribuciones de partituras cuentan la historia visualmente. Las respuestas fundamentadas se agrupan estrechamente en valores altos de DC (alrededor de 0,9). Las respuestas alucinadas se extendieron en valores más bajos (alrededor de 0,3). Las distribuciones apenas se superponen.

DC logra una detección perfecta dentro de un dominio estrecho. Pero si intenta utilizar un conjunto de referencia de un dominio para detectar alucinaciones en otro dominio, el rendimiento cae a aleatorio: AUROC alrededor de 0,50. Esto nos dice algo fundamental sobre cómo las incrustaciones codifican la conexión a tierra. Equivale a ver diferentes bandadas en el cielo: cada bandada tendrá una dirección diferente.

Para los LLM, la forma más fácil de entender esto es a través de la imagen de lo que en geometría se llama un “haz de fibras”.

Figura 1. Haz de fibras geométricas. Imagen del autor.

La superficie de la Figura 1 es la variedad base que representa todas las preguntas posibles. En cada punto de esta superficie hay una fibra: una línea que apunta en la dirección en la que se mueven las respuestas fundamentadas. Dentro de cualquier región local de la superficie (un dominio específico), todas las fibras apuntan aproximadamente en la misma dirección. Por eso DC funciona tan bien a nivel local.

Pero a nivel mundial, en diferentes regiones, las fibras apuntan en direcciones diferentes. La “instrucción fundamentada” para cuestiones legales es diferente de la “instrucción fundamentada” para cuestiones médicas. No existe un patrón global único. Sólo coherencia local.

Ahora mira el siguiente vídeo. Rutas de vuelo de aves que conectan Europa y África. Podemos ver los haces de fibras. Diferentes pájaros (pequeños medianos/grandes, insectos) tienen diferentes direcciones.

Copyright del vídeo de https://www.arcgis.com/. Uso según 2.2 Concesión de Uso No Comercial de los Servicios. El uso no comercial puede incluir enseñanza, uso en aulas, becas y/o investigación, sujeto a los derechos de uso legítimo enumerados en las secciones 107 y 108 de la Ley de derechos de autor (Título 17 del Código de los Estados Unidos).

En geometría diferencial, esta estructura se llama trivialidad local sin trivialidad global. Cada parche del colector parece simple y consistente internamente. Pero los parches no se pueden unir en un sistema de coordenadas global.

Esto tiene una implicación notable:

La conexión a tierra no es una propiedad geométrica universal.

No existe una única “dirección de veracidad” en el espacio de incrustación. Cada dominio (cada tipo de tarea, cada LLM) desarrolla su propio patrón de desplazamiento durante el entrenamiento. Los patrones son reales y detectables, pero son específicos de un dominio. Las aves no migran en la misma dirección.

Lo que esto significa en la práctica

Para la implementación, el hallazgo de localidad de dominio significa que necesita un pequeño conjunto de calibración (alrededor de 100 ejemplos) que coincida con su caso de uso específico. Un sistema legal de preguntas y respuestas necesita ejemplos legales. Un chatbot médico necesita ejemplos médicos. Este es un costo inicial único (la calibración se realiza fuera de línea) pero no se puede omitir.

Para comprender las incrustaciones, el hallazgo sugiere que estos modelos codifican una estructura más rica de lo que normalmente asumimos. No sólo están aprendiendo “similitud”. Están aprendiendo asignaciones de dominios específicos cuya interrupción indica de manera confiable una alucinación.

El pájaro rojo no d

La respuesta alucinada no tiene ningún marcador que diga “Estoy inventado”. Es fluido. Es confiado. Parece exactamente una respuesta fundamentada en cada métrica superficial.

Pero no se mueve con el rebaño. Y ahora podemos medir eso.

La geometría ha estado ahí todo el tiempo, implícita en cómo el entrenamiento contrastante da forma al espacio incrustado. Recién estamos aprendiendo a leerlo.

Notas:

Puede encontrar el documento completo en https://cert-framework.com/docs/research/dc-paper.

Si tiene alguna pregunta sobre los temas tratados, no dude en ponerse en contacto conmigo en [email protected]