Los modelos de lenguaje grande (LLM) generan respuestas paso a paso conocidas como cadena de pensamientos (COTS), donde cada token contribuye a una narrativa coherente y lógica. Para mejorar la calidad del razonamiento, se han empleado varias técnicas de aprendizaje de refuerzo. Estos métodos permiten al modelo aprender de los mecanismos de retroalimentación al alinear las salidas generadas con los criterios de corrección. A medida que los LLM crecen en complejidad y capacidad, los investigadores han comenzado a sondear la estructura interna de la generación de tokens para discernir patrones que mejoran o limitan el rendimiento. Un área que llama la atención es la distribución de la entropía de tokens, una medición de la incertidumbre en la predicción del token, que ahora se está vinculando con la capacidad del modelo para tomar decisiones lógicas significativas durante el razonamiento.
Un problema central en la capacitación de modelos de razonamiento que utilizan el aprendizaje de refuerzo es tratar todos los tokens de salida por igual. Cuando los modelos se optimizan utilizando el aprendizaje de refuerzo con recompensas verificables (RLVR), el proceso de actualización tradicionalmente incluye cada token en la secuencia generada, independientemente de su papel funcional. Este tratamiento uniforme no distingue a los tokens que conducen a cambios de razonamiento significativos de los que simplemente extienden las estructuras lingüísticas existentes. Como resultado, una gran parte de los recursos de capacitación puede dirigirse a tokens que ofrecen una contribución mínima a las capacidades de razonamiento del modelo. Sin priorizar los pocos tokens que juegan roles decisivos en la navegación de diferentes rutas lógicas, estos métodos pierden oportunidades para una optimización enfocada y efectiva.
La mayoría de los marcos RLVR, incluida la optimización de políticas proximales (PPO), la optimización de políticas relativas del grupo (GRPO) y la optimización de la política de muestreo dinámico (DAPO), funcionan evaluando secuencias completas de salidas de token contra las funciones de recompensa que evalúan la corrección. PPO se basa en estabilizar las actualizaciones de políticas a través de una función objetivo recortada. GRPO mejora esto al estimar los valores de ventaja utilizando respuestas agrupadas, en lugar de una red de valor separada. DAPO introduce mejoras adicionales, como el mecanismo clip más alto y la configuración de recompensa demasiado larga. Sin embargo, estos métodos no tienen en cuenta la entropía a nivel de token ni distinguen la importancia de los tokens individuales en la cadena de razonamiento, sino que aplican actualizaciones uniformes de gradiente en todos los ámbitos.
En un intento por refinar cómo el entrenamiento RLVR impacta el razonamiento de LLM, los investigadores de Alibaba Inc. y la Universidad de Tsinghua presentaron una nueva metodología centrada en los patrones de entropía de tokens. Observaron que en las secuencias COT generadas por los modelos QWEN3, un pequeño subconjunto de tokens, aproximadamente el 20%, muestran una entropía significativamente mayor. Estos tokens, etiquetados como “tokens bifurcadores”, a menudo corresponden a momentos en los que el modelo debe decidir entre múltiples rutas de razonamiento. El 80% restante de los tokens generalmente exhibe baja entropía y actúa como extensiones de declaraciones anteriores. Al limitar las actualizaciones de gradiente de política únicamente a estos tokens de alta entropía, el equipo de investigación no solo pudo mantener sino, en muchos casos, mejorar el rendimiento de los puntos de referencia de razonamiento desafiantes.
Para cuantificar la entropía del token, los investigadores utilizaron la fórmula de entropía basada en la distribución de probabilidad sobre posibles opciones de token en cada paso. Descubrieron que más de la mitad de todos los tokens generados tenían valores de entropía por debajo de 0.01, lo que indica un comportamiento casi determinista. Solo el 20% excedió una entropía de 0.672, marcándolos como los centros de toma de decisiones dentro de COTS. Los tokens de alta entropía a menudo incluyen operadores lógicos y palabras conectivas como “asumir”, “desde entonces” o “así”, que introducen nuevas condiciones o transiciones en lógica. En contraste, los tokens de baja entropía incluyeron símbolos predecibles, sufijos o fragmentos de código. A través de experimentos controlados, quedó claro que la manipulación de la entropía de estos tokens de bifurcación influyó directamente en el rendimiento de razonamiento del modelo, mientras que alterar los tokens de baja entropía tuvo poco efecto.
El equipo de investigación realizó extensos experimentos en tres tamaños de modelo: QWEN3-8B, QWEN3-14B y QWEN3-32B. Al entrenar solo los tokens principales del 20% de alta entropía, el modelo QWEN3-32B logró una puntuación de 63.5 en AIME’24 y 56.7 en AIME’25, ambos establecieron nuevos puntos de referencia de rendimiento para modelos de menos de 600B de parámetros. Además, el aumento de la longitud de respuesta máxima de 20k a 29k elevó el puntaje AIME’24 a 68.1. En comparación, el entrenamiento en el 80% inferior de los tokens de baja entropía hizo que el rendimiento cayera significativamente. El modelo QWEN3-14B mostró ganancias de +4.79 en AIME’25 y +5.21 en AIME’24, mientras que el QWEN3-8B mantuvo resultados competitivos en relación con el entrenamiento completo. Un estudio de ablación confirmó aún más la importancia de retener el umbral del 20%. La disminución de la fracción al 10% omitió los puntos de decisión esenciales, y el aumento del 50% o 100% diluyó el efecto al incluir demasiados tokens de baja entropía, reduciendo así la diversidad de entropía y obstaculizando la exploración.
En esencia, la investigación proporciona una nueva dirección para mejorar las habilidades de razonamiento de los modelos de idiomas identificando y capacitando selectivamente sobre la minoría de tokens que contribuyen desproporcionadamente al éxito del razonamiento. Evita el entrenamiento ineficiente y, en cambio, propone un enfoque escalable que alinee los objetivos de aprendizaje de refuerzo con los momentos reales de toma de decisiones en secuencias de tokens. El éxito de esta estrategia radica en el uso de entropía como guía para distinguir tokens útiles del relleno.
Varias conclusiones clave de la investigación incluyen:
- Alrededor del 20% de los tokens exhiben una alta entropía y sirven como puntos de bifurcación que dirigen caminos de razonamiento.
- El entrenamiento solo en estos tokens de alta entropía ofrece un rendimiento igual o mejor que el entrenamiento en el conjunto de token completo.
- QWEN3-32B logró puntajes de 63.5 en AIME’24 y 56.7 en AIME’25, superando a los modelos más grandes entrenados tradicionalmente.
- Extender la longitud de la respuesta de 20k a 29k empujó aún más el puntaje AIME’24 a 68.1.
- El entrenamiento en el 80% restante de los tokens de baja entropía condujo a una fuerte degradación del rendimiento.
- Retener el umbral del 20% para los tokens de alta entropía equilibra de manera óptima la exploración y el rendimiento.
- Los modelos más grandes ganan más de esta estrategia debido a su capacidad para beneficiarse de una mejor exploración.
- La estrategia escala bien y podría guiar el entrenamiento más eficiente de los modelos de razonamiento de próxima generación.
En conclusión, esta investigación repensa efectivamente la aplicación del aprendizaje de refuerzo a los modelos de idiomas al introducir un enfoque en la entropía a nivel de token. Al optimizar solo a la minoría que influye en las rutas de razonamiento, el método mejora el rendimiento al tiempo que reduce la sobrecarga computacional. Proporciona una hoja de ruta práctica para futuros esfuerzos para mejorar el razonamiento en LLM sin complejidad innecesaria.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 98k+ ml de subreddit y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.