Este artículo de IA presenta FastCurl: un marco de aprendizaje de refuerzo curricular con extensión de contexto para una capacitación eficiente de modelos de razonamiento similar a R1

Los modelos de idiomas grandes han transformado cómo las máquinas comprenden y generan texto, especialmente en áreas complejas de resolución de problemas como el razonamiento matemático. Estos sistemas, conocidos como modelos tipo R1, están diseñados para emular procesos de pensamiento lentos y deliberados. Su fuerza clave es manejar tareas complejas que requieren un razonamiento paso a paso en secuencias largas. Estas capacidades los hacen valiosos para aplicaciones como resolver problemas matemáticos a nivel de la Olimpiada o tareas de razonamiento lógico, donde la profundidad y la coherencia del razonamiento son esenciales.

Un desafío importante en la capacitación de estos modelos es el cálculo extenso para el aprendizaje de refuerzo utilizando ventanas de contexto largas. Las tareas que requieren modelos de fuerza lógica de varios pasos para producir largos resultados que consumen más recursos y ralentizan el aprendizaje. Además, no todas las respuestas largas contribuyen de manera significativa a la precisión; Muchos incluyen razonamiento redundante. Estas ineficiencias en la generación de respuestas y el alto uso de GPU hacen que sea difícil escalar efectivamente el entrenamiento, particularmente cuando se trabaja con modelos con 1,5 mil millones de parámetros.

Los intentos anteriores de abordar este problema incluyen modelos como DeepScaler, que utiliza una estrategia de extensión de longitud de contexto escenificada durante el entrenamiento. DeepScaler comienza con una ventana de contexto de 8k y se expande gradualmente a 24k en tres fases de entrenamiento. Aunque este enfoque ayuda a guiar el modelo para administrar cadenas de razonamiento más largas de manera eficiente, aún exige aproximadamente 70,000 horas de GPU A100. DeepScaler reduce eso a 3.800 horas a través de una estrategia progresiva, pero aún requiere un hardware considerable, incluidas configuraciones con hasta 32 GPU en algunas etapas. Esto muestra que si bien las mejoras son posibles, la solución sigue siendo costosa y compleja.

Los investigadores de Tencent introdujeron un método llamado FastCurl para superar las ineficiencias de la capacitación tradicional de aprendizaje de refuerzo. Este método presenta una estrategia basada en el plan de estudios alineada con la expansión de la ventana de contexto. FastCurl divide el conjunto de datos en función de la longitud de solicitud de entrada en categorías cortas, largas y combinadas. La capacitación progresa en cuatro etapas, cada una utilizando un conjunto de datos diferente y una configuración de ventana de contexto. Este enfoque asegura que el modelo aprenda un razonamiento simple antes de avanzar a pasos de razonamiento más largos y complejos. Los investigadores enfatizan que todo el proceso de entrenamiento se ejecuta en un solo nodo con solo 8 GPU, reduciendo la complejidad de la configuración.

El enfoque implica una segmentación deliberada de datos por longitud de entrada, impulsada por la hipótesis de que las indicaciones más largas generalmente conducen a salidas más largas y más complejas. El modelo primero aprende a usar las indicaciones cortas debajo de una ventana de 8k. A medida que avanza la capacitación, el modelo pasa a un conjunto de datos mixto con una longitud de la ventana de 16k, luego al conjunto de datos largo con el mismo tamaño de ventana, y finalmente revisa los datos combinados nuevamente. Cada etapa está entrenada para una iteración, y FastCurl requiere alrededor de 860 pasos de entrenamiento. Esto es eficiente en comparación con los 1.750 pasos de DeepScaler, lo que representa una reducción del 50% en el tiempo de entrenamiento y el uso de recursos mientras se mantiene la efectividad.

En las evaluaciones de rendimiento, FastCurl-1.5b-preview mostró mejoras sobre otros modelos en cinco puntos de referencia. Anotó 88.0 en Math 500, 43.1 en AIME 2024, 74.2 en AMC 2023, 31.6 en Minerva Math y 50.4 en Olympiadbench, con un puntaje promedio de 1 1 puntaje de 57.5. En comparación con DeepScaler-1.5b-previa, que obtuvo un promedio de 57.0, FastCurl funcionó mejor en cuatro de cinco conjuntos de datos. Estos resultados destacan que FastCurl puede superar a las técnicas existentes al tiempo que consumen significativamente menos recursos. El modelo también mostró una mejor generalización, particularmente en conjuntos de datos como AMC 2023 y Minerva Math, lo que indica robustez.

La investigación describe claramente un problema computacional en la capacitación de modelos de razonamiento similar a R1 y ofrece una estrategia curricular innovadora como solución. El método proporciona un marco de capacitación eficiente y práctico al combinar la segmentación de datos basada en entradas con la expansión del contexto. FastCurl ofrece un rendimiento fuerte utilizando menos pasos y hardware limitado, lo que demuestra que el diseño de capacitación estratégica puede ser tan poderosa como la escala computacional sin procesar.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre código abierto AI: Registro gratuito + Certificado de Asistencia + Evento corto de 3 horas (12 de abril, 9 a.m. a 12 p.m. PST) + Hands on Workshop [Sponsored]


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.