El aprendizaje por refuerzo RL para agentes LLM de modelos de lenguaje grandes parece atractivo en el papel, pero en la práctica fracasa por el costo, la infraestructura y el ruido de recompensa. Capacitar a un agente que hace clic en páginas web o completa el uso de herramientas de varios pasos puede necesitar fácilmente decenas de miles de interacciones reales, cada una de las cuales es lenta, frágil y difícil de restablecer. El nuevo marco de trabajo de Meta, DreamGym, replantea ese cuello de botella como un problema de modelado. En lugar de ejecutar RL directamente en entornos como WebShop, ALFWorld y WebArena Lite, aprende un modelo de experiencia basado en razonamiento que los simula completamente en texto.
¿Por qué la Real Environment RL para agentes no escala?
Los canales actuales de RL para agentes enfrentan cuatro problemas acoplados. Las implementaciones reales son costosas, la diversidad de tareas es limitada, las señales de recompensa son inestables y la infraestructura es compleja. Los entornos web cambian con frecuencia, las recompensas dependen de frágiles raspadores y muchas acciones son irreversibles. Los mecanismos de reinicio y el control de episodios también son difíciles de implementar, por lo que las tareas con horizontes largos se vuelven ruidosas y el muestreo es ineficaz.
Los puntos de referencia se dividen en dos grupos. WebShop y ALFWorld están preparados para RL pero son costosos, ya que todavía necesitan alrededor de 80 mil transiciones reales para alcanzar líneas de base sólidas con PPO o GRPO. WebArena Lite no está preparado para RL en absoluto, porque los reinicios y las comprobaciones automáticas de recompensas no son confiables, por lo que RL en línea en el entorno real es efectivamente inviable.
DreamGym como simulador basado en el razonamiento
DreamGym se basa en tres componentes: un modelo de experiencia basado en el razonamiento, un búfer de repetición de experiencias y un generador de tareas curriculares adaptables. Juntos definen un proceso de decisión sintético de Markov donde el entorno vive como texto.
El modelo de experiencia basado en razonamiento Mexp opera en un espacio de estados textuales abstractos. Los estados son descripciones compactas de lo que importa para la tarea, por ejemplo, elementos de página limpios en lugar de HTML sin formato. En cada paso, el agente proporciona el estado actual, la acción, la instrucción de la tarea y el historial de interacción. El sistema recupera las k transiciones pasadas similares principales del búfer de reproducción, luego utiliza el razonamiento en cadena de pensamiento para producir un rastro de razonamiento, un siguiente estado y una recompensa.
Conceptualmente, puede ver a Mexp como un modelo mundial LLM para tareas web y de herramientas, pero definido exclusivamente sobre texto. Se entrena con ajuste fino supervisado en trayectorias fuera de línea, con el objetivo conjunto de aprender a generar tanto la traza de razonamiento como el siguiente estado condicionado a esa traza. Esto obliga al modelo a codificar una estructura causal, no solo estadísticas de texto locales.
Búfer de reproducción como memoria de conexión a tierra
El búfer de reproducción de la experiencia se inicializa con datos del entorno real fuera de línea de WebShop, ALFWorld y WebArena Lite. A medida que DreamGym entrena políticas en el entorno sintético, escribe nuevas trayectorias en ese buffer. Cada paso de predicción en Mexp utiliza un codificador para recuperar un pequeño conjunto de transiciones similares de esta memoria y las condiciones al generar el razonamiento y los siguientes estados.
Esta recuperación actúa como conexión a tierra. Mantiene las transiciones sintéticas cerca de la distribución de datos empíricos y reduce las alucinaciones en implementaciones prolongadas. El equipo de investigación demostró que eliminar el historial o la recuperación degrada la coherencia, la información y la factualidad de los estados generados cuando los juzga un evaluador externo, y también reduce las tasas de éxito posteriores en WebShop y WebArena Lite.
Plan de estudios de la entropía de recompensa
El generador de tareas curriculares utiliza la misma columna vertebral que el modelo de experiencia. Selecciona tareas iniciales cuyos resultados según la política actual tienen una alta variación de recompensa, que corresponde a tareas de dificultad intermedia que el agente a veces resuelve y otras veces falla. Para cada una de estas tareas, el modelo genera variaciones que preservan los tipos de acción pero cambian las limitaciones, los objetivos o el contexto.
La heurística de selección se basa en la entropía de recompensa calculada en lotes de implementaciones para cada tarea. Se prefieren las tareas con varianza distinta de cero y éxito y fracaso equilibrados. Las ablaciones muestran que desactivar este plan de estudios adaptativo hace que el rendimiento de WebShop y WebArena Lite caiga alrededor de 6 puntos porcentuales y conduce a estancamientos tempranos a medida que el búfer de reproducción se satura con trayectorias fáciles y de baja entropía.
RL Inside DreamGym y Garantías Teóricas
Dentro de DreamGym, la política utiliza algoritmos RL estándar. El equipo de investigación evalúa la optimización de políticas próxima y la optimización de políticas relativas al grupo. Los lanzamientos alternan entre las acciones de elección de políticas y el modelo de experiencia que sintetiza los próximos estados y recompensas. Desde el punto de vista del código RL, esta es solo otra interfaz del entorno.
El equipo de investigación también deriva un límite de mejora del estilo de región de confianza que vincula el desempeño de las políticas en el MDP sintético y en el entorno real. El límite contiene términos de error que dependen del error de predicción de la recompensa y de la divergencia entre las distribuciones de transición reales y sintéticas. A medida que esos errores se reducen, la mejora en DreamGym implica una mejora en la tarea real subyacente.
Resultados experimentales en WebShop, ALFWorld y WebArena Lite
DreamGym se prueba con agentes basados en Llama y Qwen en WebShop, ALFWorld y WebArena Lite. Los resultados se dividen en tres regímenes.
En primer lugar, en entornos WebShop y ALFWorld preparados para RL pero costosos, los agentes entrenados con PPO o GRPO dentro de DreamGym, utilizando solo transiciones sintéticas, igualan el rendimiento de las líneas base de PPO y GRPO que utilizan alrededor de 80 mil interacciones en entornos reales. Esto muestra que la síntesis de experiencias basada en el razonamiento puede proporcionar señales suficientes para una mejora estable de las políticas.
En segundo lugar, en entornos que no están preparados para RL, como WebArena Lite, DreamGym permite un entrenamiento de RL que de otro modo no sería práctico. El marco logra una mejora de más del 30 por ciento en la tasa de éxito en todas las líneas de base, incluido el ajuste fino supervisado y la clonación directa de comportamiento.
En tercer lugar, en la transferencia de simulación a real, la configuración DreamGym-S2R primero entrena una política completamente en el entorno sintético y luego la afina con una pequeña cantidad de implementaciones reales. Esta configuración produce más de un 40 por ciento de ganancia adicional en comparación con la capacitación desde cero en el entorno real, al tiempo que utiliza menos del 10 por ciento de los datos reales y reduce el costo total de capacitación a aproximadamente entre un tercio y una quinta parte de las líneas de base.
Conclusiones clave
DreamGym reemplaza las frágiles implementaciones del entorno real con un modelo de experiencia basado en el razonamiento que opera en un espacio de estado textual abstracto, prediciendo el siguiente estado y la recompensa a partir de la historia, la tarea y las transiciones similares recuperadas. El marco combina tres componentes, un modelo de experiencia de razonamiento, un búfer de repetición de experiencias con trayectorias reales y un generador de tareas curriculares que selecciona y varía las tareas utilizando una heurística de entropía de recompensa, que en conjunto estabilizan y diversifican el entrenamiento de RL. En WebShop y ALFWorld, que están preparados para RL pero son costosos, los agentes entrenados con PPO o GRPO completamente dentro de DreamGym utilizando interacciones sintéticas igualan el rendimiento de las líneas base de PPO y GRPO que utilizan alrededor de 80.000 transiciones en entornos reales. En WebArena Lite, que no está preparado para RL, DreamGym permite RL en línea y logra una tasa de éxito más del 30 por ciento mayor que todas las líneas de base que no son RL, incluido el ajuste fino supervisado y la clonación de comportamiento. En la configuración de simulación a real, las políticas previamente entrenadas en DreamGym y luego ajustadas con una pequeña cantidad de implementaciones reales logran más del 40 por ciento de mejora adicional mientras utilizan menos del 10 por ciento del presupuesto de interacción real y reducen el costo total de capacitación a alrededor de un tercio a una quinta parte del RL estándar.
DreamGym es un paso importante hacia el aprendizaje por refuerzo práctico para los agentes de LLM porque replantea el entorno como un modelo de experiencia basado en el razonamiento, basado en un búfer de repetición de experiencias y un plan de estudios impulsado por entropía de recompensa, en lugar de como una frágil pila de navegador. Los avances reportados en WebArena Lite, WebShop y ALFWorld con PPO y GRPO sugieren que la experiencia sintética más la adaptación de Sim a Real puede convertirse en un patrón estándar para la capacitación de agentes a escala. En general, DreamGym hace que el modelo de experiencia, no la política, sea la principal palanca para escalar los agentes de RL.
Consulte el documento completo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.