Desde el colapso de la exploración hasta los límites predecibles: Shanghai AI Lab propone leyes de escala basadas en entropía para el aprendizaje de refuerzo en LLMS
Los avances recientes en los modelos de lenguaje grande (LLMS) centrados en el razonamiento han ampliado el alcance del aprendizaje de refuerzo (RL) más allá de las aplicaciones estrechas y…