Meta AI presenta DreamGym: un sintetizador de experiencias textuales para agentes de RL de aprendizaje por refuerzo
El aprendizaje por refuerzo RL para agentes LLM de modelos de lenguaje grandes parece atractivo en el papel, pero en la práctica fracasa por el costo, la infraestructura y el…