Los modelos de razonamiento saben cuándo tienen razón: los investigadores de la NYU introducen una sonda de estado oculto que permite la autoverificación eficiente y reduce el uso del token en un 24%

Los sistemas de inteligencia artificial han hecho avances significativos para simular el razonamiento de estilo humano, particularmente las matemáticas y la lógica. Estos modelos no solo generan respuestas, sino que caminan a través de una serie de pasos lógicos para llegar a conclusiones, ofreciendo ideas sobre cómo y por qué se producen esas respuestas. Este razonamiento paso a paso, a menudo llamado cadena de pensamiento (COT), se ha vuelto vital en cómo las máquinas manejan tareas complejas de resolución de problemas.

Un problema común que los investigadores encuentran con estos modelos es la ineficiencia durante la inferencia. Los modelos de razonamiento a menudo continúan procesando incluso después de llegar a una conclusión correcta. Este pensamiento excesivo da como resultado la generación innecesaria de tokens, aumentando el costo computacional. Si estos modelos tienen una sensación interna de corrección sigue sin estar claro, ¿se dan cuenta cuando una respuesta intermedia es correcta? Si pudieran identificar esto internamente, los modelos podrían detener el procesamiento antes, cada vez más eficiente sin perder precisión.

Muchos enfoques actuales miden la confianza de un modelo a través de indicaciones verbales o analizando múltiples salidas. Estas estrategias de caja negra le piden al modelo que informen qué tan segura es de su respuesta. Sin embargo, a menudo son imprecisos y computacionalmente caros. Por otro lado, los métodos de caja blanca investigan los estados ocultos internos de los modelos para extraer señales que pueden correlacionarse con la corrección de respuestas. El trabajo previo muestra que los estados internos de un modelo pueden indicar la validez de las respuestas finales, pero aplicar esto a pasos intermedios en cadenas de razonamiento largas sigue siendo una dirección subexplorada.

La investigación introducida por un equipo de la Universidad de Nueva York y NYU Shanghai abordó esta brecha mediante el diseño de una investigación liviana, una red neuronal simple de dos capas, para inspeccionar los estados ocultos de un modelo en los pasos de razonamiento intermedio. Los modelos utilizados para la experimentación incluyeron la serie Deepseek-R1-Distill y QWQ-32B, conocida por sus capacidades de razonamiento paso a paso. Estos modelos se probaron en varios conjuntos de datos que involucran tareas matemáticas y lógicas. Los investigadores capacitaron su sonda para leer el estado interno asociado con cada parte del razonamiento y predecir si la respuesta intermedia actual era correcta.

Para construir su enfoque, los investigadores primero segmentaron cada salida de cuna larga en partes o trozos más pequeños, utilizando marcadores como “esperar” o “verificar” para identificar las rupturas en el razonamiento. Utilizaron el estado oculto del último token en cada fragmento como una representación y coincidieron con esto con una etiqueta de corrección, que se juzgó utilizando otro modelo. Estas representaciones se utilizaron para capacitar la sonda en las tareas de clasificación binaria. La sonda se ajustó a la búsqueda de la red en hiperparámetros como la velocidad de aprendizaje y el tamaño de la capa oculta, con la mayoría de los modelos que convergen a sondas lineales, lo que indica que la información de corrección a menudo está integrada linealmente en los estados ocultos. La sonda funcionó para respuestas completamente formadas y mostró la capacidad de predecir la corrección antes de que se completara una respuesta, insinuando capacidades de aspecto.

Los resultados de rendimiento fueron claros y cuantificables. Las sondas lograron puntajes ROC-AUC superiores a 0.9 para algunos conjuntos de datos como AIME cuando usan modelos como R1-Distill-Qwen-32b. Los errores de calibración esperados (ECE) permanecieron por debajo de 0.1, mostrando una alta confiabilidad. Por ejemplo, R1-Distill-Qwen-32b tenía un ECE de solo 0.01 en GSM8K y 0.06 en conjuntos de datos de matemáticas. En la aplicación, la sonda se utilizó para implementar una estrategia de salida temprana basada en la confianza durante la inferencia. El proceso de razonamiento se detuvo cuando la confianza de la sonda en una respuesta excedió un umbral. A un umbral de confianza de 0.85, la precisión se mantuvo en 88.2%, mientras que el recuento de tokens de inferencia se redujo en un 24%. Incluso a un umbral de 0.9, la precisión permaneció en 88.6%, con una reducción de tokens del 19%. En comparación con los métodos de salida estática, esta estrategia dinámica alcanzó una precisión hasta un 5% mayor utilizando la misma o menos tokens.

Este estudio ofrece una forma eficiente e integrada para que los modelos de razonamiento sean autoverificados durante la inferencia. El enfoque de los investigadores señala una brecha, mientras que los modelos inherentemente saben cuándo tienen razón, no actúan en consecuencia. La investigación revela un camino hacia sistemas de razonamiento más inteligentes y más eficientes al aprovechar las representaciones internas a través del sondeo. Muestra que aprovechar lo que el modelo ya “sabe” puede conducir a un rendimiento significativo y mejoras de uso de recursos.


Verificar Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.