Meta presenta Llamarl: un marco de aprendizaje de refuerzo de refuerzo basado en Pytorch escalable para capacitación eficiente de LLM a escala

El papel del aprendizaje de refuerzo en el ajuste de LLMS

El aprendizaje de refuerzo ha surgido como un enfoque poderoso para ajustar los modelos de lenguaje grande (LLMS) para un comportamiento más inteligente. Estos modelos ya son capaces de realizar una amplia gama de tareas, desde el resumen hasta la generación de códigos. RL ayuda adaptando sus salidas en función de la retroalimentación estructurada. A medida que la demanda crece para que los modelos no solo sean precisos, sino que también se alineen con las preferencias o reglas complejas, RL proporciona un mecanismo crucial para mejorar su rendimiento. En consecuencia, RL se ha convertido en un componente central en el proceso posterior a la capacitación de muchos sistemas LLM avanzados.

Los desafíos de infraestructura de escalar RL para LLMS

Un desafío importante en la aplicación de RL a LLM a gran escala radica en sus importantes requisitos de recursos. El entrenamiento de estos modelos implica no solo un cálculo masivo sino también la coordinación entre diferentes componentes. Los componentes notables incluyen modelos de políticas, anotadores de recompensas y críticos. Los tamaños del modelo se escalan en cientos de miles de millones de parámetros, y problemas como el uso de la memoria, la latencia de comunicación de datos y el tiempo de inactividad de GPU presentan problemas de ingeniería difíciles. Sin un diseño eficiente, estas limitaciones obstaculizan la capacidad de aplicar RL a modelos más nuevos y más grandes. Lograr una alta utilización de GPU y minimizar los cuellos de botella entre procesos son vitales para el entrenamiento escalable y oportuno.

Limitaciones de los marcos RL anteriores para LLMS

Las soluciones anteriores han luchado con ser demasiado rígido o ineficiente cuando se escala. Los marcos sincrónicos tradicionales ejecutan la generación y la capacitación en pasos secuenciales, a menudo causando el tiempo de inactividad de GPU debido a las duraciones de la tarea no coincidentes. Herramientas como Deepspeed-Chat emplean estrategias de memoria híbrida, pero requieren modelos para compartir el espacio de memoria. Esto da como resultado cuellos de botella de rendimiento durante la generación. Algunos métodos distribuidos intentan desacoplar componentes pero aún dependen de las herramientas de orquestación pesadas, lo que limita la flexibilidad. Además, los marcos anteriores a menudo no pueden optimizar el uso de la memoria para diferentes necesidades de paralelismo durante la capacitación y la inferencia.

Llamarl de Meta: un marco RL asincrónico distribuido basado en Pytorch

Los investigadores de Meta introdujeron Llamarl, un marco de aprendizaje de refuerzo totalmente asincrónico y distribuido. Se adapta para entrenar a Massive LLM en grupos que van desde unos pocos a miles de GPU. Construyeron Llamarl por completo en Pytorch e implementaron un diseño de un solo controlador para simplificar la coordinación. Este diseño permite la personalización modular. Los ejecutores separados administran cada componente RL, como el generador, el entrenador y el modelo de recompensa, y operan en paralelo. Esta configuración asincrónica reduce el tiempo de espera durante la tubería RL. También permite la optimización independiente del paralelismo modelo y el uso de la memoria.

Características clave: descarga, eficiencia de memoria y ejecución asincrónica

La arquitectura de Llamarl prioriza la ejecución flexible y el uso eficiente de la memoria. Descarga procesos de generación a ejecutores dedicados, lo que permite al entrenador centrarse exclusivamente en las actualizaciones del modelo. Acceso de memoria directa distribuida (DDMA) admite esta descarga. Utiliza Nvidia NVLink para sincronizar los pesos en menos de dos segundos, incluso para modelos con 405 mil millones de parámetros. El marco aplica la optimización de políticas (AIPO) de importancia asincrónica (AIPO) para corregir la descuidada causada por la ejecución asincrónica. Cada ejecutor opera de forma independiente, aprovecha el paralelismo de grano fino y aplica técnicas de cuantización a modelos de inferencia para reducir aún más las demandas de cálculo y memoria.

Partes de referencia de rendimiento del mundo real: 10.7x Speedup en modelos 405B

Llamarl ofrece mejoras significativas en la velocidad de entrenamiento sin comprometer la calidad. En un modelo de parámetros 8B con 256 GPU, reduce el tiempo de entrenamiento de 22.45 segundos a 8.90 segundos. Para el modelo 70B, la reducción es de 82.32 a 20.67 segundos. Lo más impresionante, en un modelo de parámetros 405B en 1024 GPU, Llamarl reduce el tiempo de paso RL de 635.8 a solo 59.5 segundos y logra una aceleración de 10.7 × sobre la línea de base sincrónica. Estas ganancias se producen no solo de la ejecución asincrónica sino también de su memoria desacoplada y estrategias de cálculo. Las evaluaciones de referencia sobre matemáticas y GSM8K confirman que Llamarl mantiene un rendimiento consistente. Algunas métricas incluso muestran ligeras mejoras.

Pensamientos finales: Llamarl como un camino escalable hacia adelante en el entrenamiento de LLM

Esta investigación presenta una solución práctica y escalable a uno de los cuellos de botella más importantes. El cuello de botella está en la capacitación de modelos de idiomas grandes (LLM) utilizando el aprendizaje de refuerzo. La introducción de la capacitación asincrónica a través de Llamarl marca un cambio sustancial de las tuberías de aprendizaje de refuerzo tradicional (RL). Al abordar las limitaciones de memoria, los retrasos en la comunicación e ineficiencias de GPU, el marco proporciona una solución bien integrada para futuros desarrollos en la capacitación del modelo de lenguaje.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín. ▷ Desea promover su producto/seminario web/servicio a 1 millón+ ingenieros de IA/desarrolladores/científicos de datos/arquitectos/CTO/CIO? Vamos a socio ..


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.