Diseñe bucles, no indicaciones | Hacia la ciencia de datos

“Ya no escribimos indicaciones. Diseñamos bucles”. — alguien en Anthropic en junio de 2026

En el bucle del agente, la autocrítica no sirvió más que no hacer nada. Un verificador determinista y anclado en la fuente redujo la tasa de alucinaciones aproximadamente a la mitad.

La frase es de hace unas semanas y ya parece cierta. Dejamos de ajustar un mensaje perfecto y comenzamos a crear sistemas que prueban, verifican su propio trabajo y mejoran en varios pasos. Un modelo que puede revisar vale más que un modelo que responde una vez y se detiene. En esto, la línea es correcta.

Lo que deja fuera es la factura. Un bucle es mucho más difícil de verificar que una sola llamada: con una llamada se verifica una salida, pero en un bucle cada paso puede variar y las formas en que puede salir mal se multiplican con cada iteración. Lo difícil deja de ser la generación. Se convierte en verificación. O, si lo prefieres: saber si el bucle está funcionando correctamente. Y la forma predeterminada de verificar (dejar que el modelo verifique su propio trabajo) resulta ser el eslabón más débil de la cadena.

Así que esto no es una disputa con “bucles de diseño, no indicaciones”. Es el truco que esconde, medido: el experimento que me convenció, con los números y el método, para que puedas comprobarlo tú mismo.

La superficie de verificación crece con cada paso

Una sola llamada tiene un lugar donde equivocarse: la respuesta. Un ciclo de tres pasos tiene el primer borrador, la crítica del borrador, la revisión, la crítica de la revisión y la decisión de detenerse. Cada uno de ellos es el resultado de un modelo, y es seguro que cada uno de ellos puede estar equivocado. No eliminaste el problema de verificación agregando un bucle. Lo multiplicaste.

El bucle actúa según sus propios veredictos. Si el cheque dice “bueno”, el bucle se detiene y se envía. Si la verificación es incorrecta, el bucle envía un error y, peor aún, puede seguir puliendo ese error a través de iteraciones hasta que se lea de manera convincente. Un bucle es tan confiable como aquello con lo que se verifica.

El eslabón más débil: un modelo que califica su propio trabajo

El verificador más común es el propio modelo. Después de redactar, le preguntas: “¿Es correcto?” Es barato, no necesita infraestructura adicional y parece un reflejo.

El problema es para qué optimiza el modelo. Cuando un LLM califica su propio resultado, recompensa las respuestas que suenan bien. Una respuesta segura, fluida e incorrecta también suena bien. Por lo tanto, la autocrítica tiende a señalar exactamente los fallos que más desea detectar y, en ocasiones, se convence a sí misma de no dar una respuesta correcta. No hay ninguna verdad externa en el bucle: sólo la misma distribución que produjo el error, ahora solicita detectarlo.

Quería medirlo.

Un tipo diferente de control: determinista y anclado en la fuente

La alternativa es un verificador que no pide ninguna opinión al modelo. Tenemos que considerar dos propiedades relevantes:

Anclado en la fuente. La verificación mide si una respuesta se basa en una fuente real, no si se lee bien. Si la respuesta se aleja del material original, el verificador la marca, independientemente de cuán segura parezca la prosa. Determinista. Misma aportación, mismo veredicto, siempre. Puede inspeccionarlo, registrarlo y confiar en él en todas las ejecuciones.

Un juez estocástico que cambia de opinión no es una base sobre la que pueda sostenerse un bucle.

El verificador que utilicé es geométrico. Incorpora la pregunta, la respuesta del candidato y la fuente en una hiperesfera vectorial y lee los ángulos entre ellos. Una respuesta fundamentada se encuentra cerca de su fuente; el alucinado se acerca a la pregunta y se aleja de la fuente. El índice de conexión a tierra semántica (SGI) es una relación de dos de esos ángulos; una puntuación complementaria (DGI) es una medida de conexión a tierra distributiva calibrada en pares conectados a tierra mantenidos. Ambos son geometría pura sobre un codificador fijo, por lo que son deterministas por construcción. La implementación es de código abierto (Groundlens); El objetivo de este artículo no son las matemáticas, sino lo que sucede cuando se coloca dicha verificación dentro de un bucle.

En primer lugar, ¿la geometría discrimina siquiera las alucinaciones? En el punto de referencia de control de calidad de HaluEval, la puntuación se basa en respuestas alucinadas:

Señal verificadoraAUROC95% CISGI0.769[0.715, 0.821]DGI0.939[0.911, 0.964]SGI+DGI0,949[0.926, 0.971]

Tabla 1: Detección en n = 300 pares de respuestas; intervalos de confianza de arranque.

La señal combinada separa claramente las respuestas acertadas de las alucinadas. Ésa es la condición previa. Ahora la pregunta es si una verificación tan precisa, colocada dentro de un bucle, realmente hace que las respuestas finales del bucle sean mejores que la autocrítica.

el experimento

El diseño aísla una variable: contra qué verifica el bucle (Figura 1).

Figura 1. Configuración del experimento

Un generador responde preguntas fácticas a libro cerrado (de su propia memoria, sin ninguna fuente frente a él), por lo que alucina con frecuencia y un verificador tiene algo que arreglar. Cada pregunta pasa por cuatro brazos y un árbitro de modelos cruzados califica cada respuesta final, por lo que ningún modelo se juzga a sí mismo en la puntuación:

Referencia de libro abierto: al generador simplemente se le entrega la fuente. Sin cheque. Este es el techo. Único (libro cerrado): una respuesta, sin control. Este es el piso. Autocrítica: a libro cerrado; el modelo juzga su propia respuesta y la revisa hasta que esté satisfecho (hasta tres iteraciones). Anclado en la fuente: libro cerrado; el verificador geométrico puntúa la respuesta y en una bandera inyecta la fuente y solicita una reescritura fundamentada (hasta tres iteraciones).

Configuración, para reproducción: generador Claude Opus 4.8; árbitro GPT-5.5 (calificación entre modelos); referencia de control de calidad de HaluEval; codificador all-MiniLM-L6-v2; temperatura=0 (si está disponible); semilla=0; umbrales de bucle calibrados en los borradores de entrenamiento a libro cerrado del propio modelo; n=120n=120 elementos a través de los bucles.

Una asimetría es deliberada. Y ese es el punto: el brazo anclado en la fuente tiene acceso a una fuente de verdad a través de su verificador, y el brazo de la autocrítica no.

La hipótesis bajo prueba no es que “la geometría vence a la autocrítica con la misma información”. Es “un verificador anclado en la fuente que convierte un generador de alucinaciones de libro cerrado en uno fundamentado, mientras que la autocrítica por sí sola no puede hacerlo”. El libro abierto y los brazos individuales unen lo que es posible en la parte superior e inferior.

Resultados

Arm ¿Ve la fuente? Tasa de alucinaciones IC del 95 % (Wilson) Iteraciones medias Referencia de libro abierto (techo) sí 5,8 %[2.9%, 11.6%]1.00Único, a libro cerrado (piso)no40.0%[31.7%, 48.9%]1,00Autocrítica (Claude → Claude)no43,3%[34.8%, 52.3%]1,62Verificador anclado en fuente (SGI/DGI)a través del cheque19,2%[13.1%, 27.1%]1,59
Tabla 2: Generación a libro cerrado; árbitro modelo cruzado; norte = 120.

Dos lecturas y los intervalos de confianza deciden ambas.

La autocrítica no ayudó. El 43,3% es, en todo caso, ligeramente peor que el mínimo del 40,0%, y su intervalo [34.8%, 52.3%] se superpone al piso [31.7%, 48.9%] casi en su totalidad. Las iteraciones adicionales no compraron nada. Un modelo que se verifica a sí mismo gastó más cómputo para aterrizar donde comenzó, y la pequeña tendencia ascendente es consistente con la autocrítica que ocasionalmente anula las respuestas correctas, exactamente el modo de falla que se predeciría cuando no hay una verdad externa en el ciclo.

La verificación basada en la fuente redujo aproximadamente a la mitad la tasa de error. Movió el mínimo del 40,0% al 19,2%, una reducción relativa del 52%, en aproximadamente el mismo número de iteraciones que utilizó el ciclo de autocrítica. Esto no está dentro del ruido: el intervalo anclado alcanza un máximo del 27,1%, por debajo de donde comienza el intervalo mínimo en el 31,7%. Los dos no se superponen. La mejora es una señal real, no una racha de suerte.

Figura 3. Resultados experimentales

La forma del resultado es la historia. Mismo generador, mismo presupuesto de bucle, misma desventaja a libro cerrado. Lo único que cambió fue en qué confiaba el bucle: su propio juicio o una medición determinista respecto de la fuente. Uno de ellos movió la aguja a la mitad. El otro no lo movió en absoluto.

No puedes mentirle a un bucle

La intuición es simple. Un agente aprende de sus comentarios, por lo que no puedes mentirle. Una verificación que recompensa una respuesta incorrecta y segura está haciendo exactamente eso: alimentar el ciclo con una señal de recompensa que se correlaciona con la fluidez más que con la verdad. El bucle optimiza diligentemente la señal que se le da y pule la prosa. Una verificación de fuente anclada le da al bucle una recompensa correlacionada con la conexión a tierra, y el bucle la optimiza.

No decimos que la geometría conozca la verdad. El verificador mide si una respuesta está comprometida con su fuente, no si la fuente es correcta ni si la respuesta es verdadera en algún sentido absoluto. En un punto de referencia construido para probar la veracidad en lugar de la base, la misma señal es casi una casualidad. La fundamentación y la verdad son objetivos diferentes, y este método sólo aborda el primero. La victoria es modesta: un verificador anclado en la fuente es una mejor base para un bucle que la autocrítica, no un oráculo.

Limitaciones

No publicaría un resultado sobre la verificación sin indicar dónde termina.

La asimetría es real y intencionada. El brazo anclado puede llegar a la fuente; el brazo de autocrítica no puede. El hallazgo trata de darle a un bucle un ancla externa y determinista, no de que la geometría supere la autocrítica en igualdad de información. La conexión a tierra no es la verdad. SGI mide el compromiso con el origen. En un punto de referencia de veracidad, la misma señal es aproximadamente aleatoria (AUROC ≈ 0,48). Si su modo de falla es una fuente incorrecta en lugar de una respuesta infundada, esto no ayuda. Un generador, un punto de referencia, un codificador. El buen resultado es Claude Opus 4.8 en HaluEval QA con un modelo de incrustación de oraciones únicas. No he demostrado que se aplique a todos los generadores y dominios; una ejecución inicial con un generador y una configuración diferentes no mostró la misma ganancia, razón por la cual la replicación entre generadores es el siguiente paso en lugar de una nota a pie de página. El libro cerrado es una configuración de margen de maniobra. Obligar al modelo a responder desde la memoria aumenta la tasa de error base para que el verificador tenga espacio para trabajar. En un oleoducto RAG normal donde la fuente ya está en contexto, los números absolutos serán menores, aunque ese es también el régimen en el que es más barato agregar una verificación de puesta a tierra. Estimaciones de puntos de semilla única. Los intervalos son Wilson; promediar entre semillas las restringiría aún más.

que llevarse

“Diseñar bucles, no indicaciones” es correcto. Pero un bucle es tan seguro como aquello con lo que se verifica, y el valor predeterminado conveniente (el propio criterio del modelo) es la parte con mayor probabilidad de fallar. En este experimento, la autoverificación no fue mejor que no hacer nada, mientras que una verificación determinista y anclada en la fuente redujo la tasa de error a la mitad con el mismo presupuesto.

Si está creando bucles de agentes, el movimiento práctico es apuntar el verificador del bucle a algo fuera de la opinión del modelo: una verificación determinista e inspeccionable contra una fuente real. Obtienes bucles que son más efectivos y más confiables, y obtienes un veredicto que puedes registrar y reproducir en lugar de una vibra.

El verificador utilizado aquí es de código abierto y el cuaderno completo reproduce todos los números anteriores (generador, claves de árbitro y un único conmutador de PROVEEDOR): github.com/groundlens-dev/groundlens. El desacuerdo es bienvenido: es determinista, así que puedes comprobarlo tú mismo.

Referencias

Huang, J., Chen, X., Mishra, S., Zheng, HS, Yu, A., Song, X. y Zhou, D. (mayo de 2024). Los modelos de lenguaje grandes todavía no pueden autocorregir el razonamiento. En Conferencia internacional sobre representaciones del aprendizaje (Vol. 2024, págs. 32808-32824). Kamoi, R., Zhang, Y., Zhang, N., Han, J. y Zhang, R. (2024). ¿Cuándo pueden las películas corregir sus propios errores? Un estudio crítico sobre la autocorrección de películas. Transacciones de la Asociación de Lingüística Computacional, 12, 1417-1440. Marín, J. (2025). Índice de base semántica: límites geométricos en la participación del contexto en sistemas RAG. preimpresión de arXiv arXiv:2512.13771. Chen, KY, Su, FY y Chiang, JH (2026). La ilusión de la autocorrección: los LLM corrigen a los demás pero no a sí mismos. preimpresión de arXiv arXiv:2606.05976. Marín, J. (2026). Una taxonomía geométrica de alucinaciones en LLM. preimpresión de arXiv arXiv:2602.13224.