Hugging Face lanza TRL v1.0: una pila unificada posterior a la capacitación para flujos de trabajo SFT, modelado de recompensas, DPO y GRPO
Hugging Face ha lanzado oficialmente TRL (Transformer Reinforcement Learning) v1.0, lo que marca una transición fundamental para la biblioteca de un repositorio orientado a la investigación a un marco estable…