RECOOL: un marco de aprendizaje de refuerzo de refuerzo acuático para la herramienta para optimizar el razonamiento de LLM con herramientas computacionales
El aprendizaje de refuerzo (RL) es una técnica poderosa para mejorar las capacidades de razonamiento de los LLM, lo que les permite desarrollar y refinar la larga cadena de pensamiento…