Débil para fuerte (W4S): un novedoso algoritmo de aprendizaje por refuerzo que entrena a un metaagente débil para diseñar flujos de trabajo agentes con LLM más sólidos
Investigadores de Stanford, EPFL y UNC presentan Weak-for-Strong Harnessing, W4S, un nuevo marco de aprendizaje por refuerzo de RL que entrena a un pequeño metaagente para diseñar y perfeccionar flujos…