La selección de token de alta entropía en el aprendizaje de refuerzo con recompensas verificables (RLVR) mejora la precisión y reduce el costo de capacitación para LLMS
Los modelos de lenguaje grande (LLM) generan respuestas paso a paso conocidas como cadena de pensamientos (COTS), donde cada token contribuye a una narrativa coherente y lógica. Para mejorar la…