Hugging Face lanza TRL v1.0: una pila unificada posterior a la capacitación para flujos de trabajo SFT, modelado de recompensas, DPO y GRPO

Hugging Face ha lanzado oficialmente TRL (Transformer Reinforcement Learning) v1.0, lo que marca una transición fundamental para la biblioteca de un repositorio orientado a la investigación a un marco estable y listo para producción. Para los profesionales y desarrolladores de IA, esta versión codifica el proceso posterior a la capacitación (la secuencia esencial de ajuste fino supervisado (SFT), modelado de recompensas y alineación) en una API unificada y estandarizada.

En las primeras etapas del auge del LLM, la formación posterior a menudo se trataba como un “arte oscuro” experimental. TRL v1.0 tiene como objetivo cambiar eso al brindar una experiencia de desarrollador consistente basada en tres pilares principales: una interfaz de línea de comandos (CLI) dedicada, un sistema de configuración unificado y un conjunto ampliado de algoritmos de alineación que incluyen DPO, GRPO y KTO.

La pila unificada de post-entrenamiento

El posentrenamiento es la fase en la que un modelo base previamente entrenado se refina para seguir instrucciones, adoptar un tono específico o exhibir capacidades de razonamiento complejas. TRL v1.0 organiza este proceso en etapas distintas e interoperables:

Ajuste fino supervisado (SFT): el paso fundamental en el que el modelo se entrena con datos de seguimiento de instrucciones de alta calidad para adaptar su conocimiento previamente entrenado a un formato conversacional. Modelado de recompensa: el proceso de entrenar un modelo separado para predecir las preferencias humanas, que actúa como un “juez” para calificar las diferentes respuestas del modelo. Alineación (aprendizaje por refuerzo): el refinamiento final donde se optimiza el modelo para maximizar las puntuaciones de preferencia. Esto se logra mediante métodos “en línea” que generan texto durante el entrenamiento o métodos “fuera de línea” que aprenden de conjuntos de datos de preferencias estáticas.

Estandarización de la experiencia del desarrollador: TRL CLI

Una de las actualizaciones más importantes para los ingenieros de software es la introducción de una CLI TRL sólida. Anteriormente, los ingenieros debían escribir un extenso código repetitivo y ciclos de entrenamiento personalizados para cada experimento. TRL v1.0 presenta un enfoque basado en configuración que utiliza archivos YAML o argumentos directos de línea de comandos para administrar el ciclo de vida de la capacitación.

El comando trl

La CLI proporciona puntos de entrada estandarizados para las etapas de capacitación primaria. Por ejemplo, iniciar una ejecución SFT ahora se puede ejecutar mediante un solo comando:

trl sft –model_name_or_path meta-llama/Llama-3.1-8B –dataset_name openbmb/UltraInteract –output_dir ./sft_results

Esta interfaz está integrada con Hugging Face Accelerate, que permite que el mismo comando se escale en diversas configuraciones de hardware. Ya sea que se ejecute en una única GPU local o en un clúster de múltiples nodos que utiliza datos paralelos completamente fragmentados (FSDP) o DeepSpeed, la CLI administra la lógica de distribución subyacente.

TRLConfig y argumentos de entrenamiento

La paridad técnica con la biblioteca de transformadores centrales es la piedra angular de esta versión. Cada entrenador ahora presenta una clase de configuración correspondiente, como SFTConfig, DPOConfig o GRPOConfig, que hereda directamente de transformadores.TrainingArguments.

Algoritmos de alineación: elegir el objetivo correcto

TRL v1.0 consolida varios métodos de aprendizaje por refuerzo, clasificándolos según sus requisitos de datos y sobrecarga computacional.

Tipo de algoritmoCaracterística técnicaPPOEn líneaRequiere modelos de política, referencia, recompensa y valor (crítico). Huella de VRAM más alta.DPOSin conexiónAprende de pares de preferencias (elegidos o rechazados) sin un modelo de recompensa separado.GRPOEn líneaUn método basado en políticas que elimina el modelo de Valor (crítico) mediante el uso de recompensas relativas al grupo.KTOSin conexiónAprende de señales binarias de “pulgar arriba/abajo” en lugar de preferencias emparejadas.ORPO (Exp.)ExperimentalUn método de un solo paso que fusiona SFT y alineación usando una relación de probabilidades pérdida.

Escalado de eficiencia y rendimiento

Para adaptarse a modelos con miles de millones de parámetros en hardware de consumo o empresarial de nivel medio, TRL v1.0 integra varias tecnologías centradas en la eficiencia:

PEFT (ajuste fino con eficiencia de parámetros): el soporte nativo para LoRA y QLoRA permite realizar ajustes finos actualizando una pequeña fracción de los pesos del modelo, lo que reduce drásticamente los requisitos de memoria. Integración de Unsloth: TRL v1.0 aprovecha los núcleos especializados de la biblioteca de Unsloth. Para los flujos de trabajo SFT y DPO, esta integración puede dar como resultado un aumento del doble en la velocidad de entrenamiento y hasta una reducción del 70 % en el uso de memoria en comparación con las implementaciones estándar. Empaquetado de datos: SFTTrainer admite empaquetamiento de longitud constante. Esta técnica concatena múltiples secuencias cortas en un único bloque de longitud fija (por ejemplo, 2048 tokens), lo que garantiza que casi todos los tokens procesados contribuyan a la actualización del gradiente y minimizan el cálculo gastado en el relleno.

El espacio de nombres trl.experimental

El equipo de Hugging Face ha introducido el espacio de nombres trl.experimental para separar las herramientas de producción estable de la investigación en rápida evolución. Esto permite que la biblioteca principal siga siendo compatible con versiones anteriores y al mismo tiempo albergue desarrollos de vanguardia.

Las características actualmente en la pista experimental incluyen:

ORPO (Optimización de Preferencia de Odds Ratio): Un método emergente que intenta saltarse la fase SFT aplicando la alineación directamente al modelo base. Formadores de DPO online: Variantes de DPO que incorporan generación en tiempo real. Funciones de pérdida novedosas: objetivos experimentales que apuntan a comportamientos específicos del modelo, como reducir la verbosidad o mejorar el razonamiento matemático.

Conclusiones clave

TRL v1.0 estandariza la capacitación posterior de LLM con una CLI unificada, un sistema de configuración y un flujo de trabajo del capacitador. El lanzamiento separa un núcleo estable de métodos experimentales como ORPO y KTO. GRPO reduce los gastos generales de capacitación de RL al eliminar el modelo crítico separado utilizado en PPO. TRL integra PEFT, empaquetado de datos y Unsloth para mejorar la eficiencia del entrenamiento y el uso de la memoria. La biblioteca hace que SFT, el modelado de recompensas y la alineación sean más reproducibles para los equipos de ingeniería.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

Hugging Face lanza TRL v1.0: una pila unificada posterior a la capacitación para flujos de trabajo SFT, modelado de recompensas, DPO y GRPO

ByEquipo de 7 minutos

La pila unificada de post-entrenamiento

Estandarización de la experiencia del desarrollador: TRL CLI

El comando trl

TRLConfig y argumentos de entrenamiento

Algoritmos de alineación: elegir el objetivo correcto

Escalado de eficiencia y rendimiento

El espacio de nombres trl.experimental

Conclusiones clave

By Equipo de 7 minutos

Related Post

El cambio de dominio: trasladar la gobernanza de datos de la selección de productos a la inversión en infraestructura

Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

Diseñe una tubería de recuperación y reclasificación de alta precisión con ZeroEntropy Zerank-2 Reranker

You missed

La NASA comienza la fase 1 de construcción de su base lunar. Aquí está el plan completo. : Alerta científica

El esfuerzo del Partido Republicano por manipular las elecciones asestó dos nuevos golpes

Comparte videos acogedores con NBA YoungBoy (VIDEOS)

El cambio de dominio: trasladar la gobernanza de datos de la selección de productos a la inversión en infraestructura