SwiReasoning: alternancia impulsada por la entropía de cadenas de pensamiento latentes y explícitas para LLM de razonamiento

SwiReasoning es un marco de tiempo de decodificación que permite a un LLM de razonamiento decidir cuándo pensar en el espacio latente y cuándo escribir una cadena de pensamiento explícita, utilizando la confianza por bloques estimada a partir de las tendencias de entropía en las distribuciones del siguiente token. El método no requiere entrenamiento, es independiente del modelo y apunta a compensaciones de precisión/eficiencia superiores a Pareto en matemáticas y puntos de referencia STEM. Los resultados informados muestran mejoras promedio de precisión de +1,5 % a 2,8 % con tokens ilimitados y ganancias promedio de eficiencia de tokens de +56 % a 79 % con presupuestos limitados; En AIME’24/’25, alcanza la máxima precisión de razonamiento antes que el CoT estándar.

¿Qué cambia SwiReasoning en el momento de la inferencia?

El controlador monitorea la entropía del siguiente token del decodificador para formar una señal de confianza por bloques. Cuando la confianza es baja (la entropía tiene una tendencia ascendente), entra en razonamiento latente: el modelo continúa razonando sin emitir tokens. Cuando la confianza se recupera (la entropía tiene una tendencia a la baja), vuelve al razonamiento explícito, emitiendo tokens CoT para consolidar y comprometerse con un camino único. Un control de conteo de cambios limita el número máximo de transiciones de bloques de pensamiento para suprimir el pensamiento excesivo antes de finalizar la respuesta. Esta alternancia dinámica es el mecanismo central detrás de las ganancias reportadas en precisión por token.

https://arxiv.org/pdf/2510.05069

Resultados: precisión y eficiencia en suites estándar

Informa mejoras en las tareas de razonamiento matemático y STEM:

Pass@1 (presupuesto ilimitado): la precisión aumenta hasta +2,8% (matemáticas) y +2,0% (STEM) en la Figura 1 y la Tabla 1, con un promedio de +2,17% sobre las líneas de base (CoT con muestreo, CoT codicioso y pensamiento suave). Eficiencia de tokens (presupuestos limitados): mejoras promedio de hasta +79% (Figura 2). Una comparación exhaustiva muestra que SwiReasoning logra la mayor eficiencia de token en 13/15 evaluaciones, con una mejora promedio de +84 % sobre CoT en esos entornos (Figura 4). Dinámica Pass@k: con Qwen3-8B en AIME 2024/2025, las precisiones máximas de razonamiento se logran un +50 % antes que CoT en promedio (Figura 5), ​​lo que indica una convergencia más rápida hacia el techo con menos trayectorias muestreadas.

¿Por qué ayuda el cambio?

El CoT explícito es discreto y legible, pero se bloquea prematuramente en una única ruta, lo que puede descartar alternativas útiles. El razonamiento latente es continuo y contiene información densa en cada paso, pero las estrategias puramente latentes pueden difundir la masa de probabilidad e impedir la convergencia. SwiReasoning añade una alternancia guiada por la confianza: las fases latentes amplían la exploración cuando el modelo es incierto; Las fases explícitas aprovechan el aumento de la confianza para solidificar una solución y comprometer tokens solo cuando sea beneficioso. El control de conteo de interruptores regulariza el proceso al limitar las oscilaciones y limitar la deambulación “silenciosa” prolongada, abordando tanto la pérdida de precisión por difusión como el desperdicio de tokens por pensar demasiado, citados como desafíos para los métodos latentes sin entrenamiento.

Posicionamiento versus líneas de base

El proyecto se compara con CoT con muestreo, CoT greedy y Soft Thinking, y reporta un aumento promedio de precisión del +2,17 % con presupuestos ilimitados (Tabla 1) y ventajas consistentes de eficiencia por token bajo restricciones presupuestarias. La frontera de Pareto visualizada se desplaza hacia afuera (ya sea con una mayor precisión con el mismo presupuesto o una precisión similar con menos tokens) en diferentes familias de modelos y escalas. En AIME’24/’25, las curvas Pass@k muestran que SwiReasoning alcanza el techo de rendimiento con menos muestras que CoT, lo que refleja un comportamiento de convergencia mejorado en lugar de solo mejores techos brutos.

https://arxiv.org/pdf/2510.05069
https://arxiv.org/pdf/2510.05069

Conclusiones clave

Controlador sin entrenamiento: SwiReasoning alterna entre razonamiento latente y cadena de pensamiento explícita utilizando la confianza por bloques de las tendencias de entropía del siguiente token. Aumentos de eficiencia: Informa mejoras promedio de eficiencia simbólica de entre +56% y 79% bajo presupuestos restringidos en comparación con CoT, con mayores ganancias a medida que los presupuestos se ajustan. Aumentos de precisión: logra mejoras promedio de Aprobado@1 de +1,5 a 2,8% en los puntos de referencia de matemáticas/STEM con presupuestos ilimitados. Convergencia más rápida: en AIME 2024/2025, alcanza la máxima precisión de razonamiento antes que CoT (dinámica Pass@k mejorada).

SwiReasoning es un paso útil hacia el control pragmático de la “política de razonamiento” en el momento de la decodificación: no requiere entrenamiento, se ubica detrás del tokenizador y expone ganancias mensurables en las suites de matemáticas/STEM al alternar entre CoT latente y explícita usando una señal de confianza de tendencia de entropía con un recuento de interruptores limitado. La implementación de BSD de código abierto y los indicadores claros (–max_switch_count, –alpha) hacen que la replicación sea sencilla y reducen la barrera para el apilamiento con capas de eficiencia ortogonales (por ejemplo, cuantificación, decodificación especulativa, trucos de caché KV). La propuesta de valor del método es la “precisión por token” en lugar de la precisión bruta de SOTA, lo cual es operativamente importante para la inferencia y el procesamiento por lotes presupuestados.

Consulte la página del artículo y del proyecto. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.