Los investigadores de Shanghai Jiao Tong proponen Octothinker para el desarrollo de LLM escalable de refuerzo de refuerzo

Introducción: el progreso del aprendizaje de refuerzo a través de la provisión de la cadena de pensamiento

    Los LLM han demostrado un excelente progreso en tareas de razonamiento complejas a través de la solicitud de cuna combinadas con aprendizaje de refuerzo a gran escala (RL). Modelos como Deepseek-R1-Zero han mostrado fuertes capacidades de razonamiento aplicando RL directamente a los modelos base. Del mismo modo, métodos como SimpleRerl y Open-Ronalerzero muestran mejoras en modelos más pequeños como la serie QWEN. Sin embargo, lograr el éxito en diferentes familias de modelos base sigue siendo un desafío. Además, la aplicación de capacitación de estilo R1-Zero a modelos base como la serie LLAMA enfrenta dificultad, planteando una pregunta fundamental sobre los factores subyacentes que llevan a diferentes modelos base a comportarse de manera inconsistente durante el aprendizaje de refuerzo.

    Limitaciones de la escala RL en modelos de llama

      RL a gran escala avanza en modelos como OpenAI’s O1, O3 y Deepseek’s R1 sobre problemas de matemáticas a nivel de competencia, motivando la exploración de RL en modelos más pequeños con parámetros de menos de 100B. Sin embargo, se limitan a la familia Modelo QWEN, mientras que replicar resultados en familias como Llama es difícil. La falta de transparencia en las tuberías previas al entrenamiento ha dificultado la comprensión de cómo el pre-entrenamiento influye en la escala RL. Esto ha provocado estudios no convencionales, que descubrieron que la provisión de un disparo mejora el razonamiento en Qwen, pero ofrece poco beneficio en la llama. Los esfuerzos para curar a los corpus matemáticos de alta calidad de pre-entrenamiento a través de proyectos como OpenWebmath, Mathpile, Infimm-Web-Math y Finemath han progresado, pero siguen siendo limitados en escala de menos de 100B de tokens.

      Explorando el entrenamiento medio con una estrategia estable, luego de diciembre

        Investigadores de la Universidad de Shanghai Jiao Tong investigan cómo las estrategias de entrenamiento medio dan forma a la dinámica RL, centrándose en Qwen y Llama. El estudio presenta varias ideas: primero, corpus matemáticos de alta calidad, como Megamath-Web-Pro, tanto el modelo base como los resultados de RL. En segundo lugar, el uso de datos de estilo QA, especialmente aquellos con razonamiento largo de cuna, mejora aún más los resultados de RL. Tercero, Long Cot introduce verbosidad e inestabilidad en el entrenamiento de RL. Por último, la aplicación de escala durante el entrenamiento medio da como resultado un rendimiento RL más fuerte aguas abajo. Los investigadores introducen una estrategia de entrenamiento medio de dos etapas llamada Stable-Then-Dicay, donde los modelos base se entrenan primero en tokens 200B, seguidos de tokens 20B en tres ramas centradas en el cuna, lo que resulta en modelos de octotinking que muestran una fuerte compatibilidad de RL.

        Configuración RL y evaluación de referencia

          Los investigadores usan el conjunto de datos MATH8K para las indicaciones de capacitación RL. La configuración incluye un tamaño de lote de entrenamiento global de 128, 16 respuestas de implementación por consulta y un tamaño de mini lote PPO de 64, con experimentos realizados en modelos LLAMA-3.2-3B-Base y QWEN2.5-3B-Base. Para la evaluación, se utiliza pocas solicitudes de disparo para los modelos de lenguaje base y el disparo cero para los modelos sintonizados con RL en tareas indicadoras, incluidas GSM8K, Math500, Olympiadbench y AMC23. Durante el entrenamiento RL, los modelos QWEN exhiben longitudes de respuesta cada vez mayores que siguen siendo razonables en todo momento, mientras que LLAMA muestra un comportamiento anormal, con longitudes de respuesta promedio que se intensifican a 4,096 tokens. La evaluación revela además que QWEN2.5-3b sintonizado con RL logra mejoras en los puntos de referencia, mientras que LLAMA-3.2-3B muestra solo ganancias marginales.

          Octothinker supera a Llama en compatibilidad RL

            Cada sucursal de Octothinker demuestra una mejora del 10% -20% sobre el modelo de base original de LLAMA y ganancias consistentes sobre el modelo de etapa estable en todos los tamaños cuando se evalúa en 13 puntos de referencia matemáticos. Las familias Octothinker-Zero revelan diversos comportamientos de pensamiento durante la escala de RL, con un fuerte rendimiento de la variante Octothinker-Long. Al comparar tres modelos base a escala 3B durante el entrenamiento RL, Octothinker-Long-3b supera al modelo LLAMA-3.2-3B original y alcanza la paridad de rendimiento con QWEN2.5-3b, un modelo conocido por las fuertes capacidades de razonamiento y una priorización extensa. Las ramas híbridas y cortas muestran un rendimiento ligeramente más bajo, especialmente en puntos de referencia desafiantes

            Conclusión y trabajo futuro: hacia los modelos de fundaciones listos para RL

              Este documento investiga por qué modelos base como Llama y Qwen exhiben comportamientos divergentes durante RL para el razonamiento, lo que demuestra que el entrenamiento medio juega un papel importante en la escalabilidad de RL. La estrategia de entrenamiento medio de dos etapas se transforma en un modelo de fundación más adecuado para RL, lo que resulta en modelos Octothinker. Las instrucciones de investigación futuras incluyen:

              • Curación de corpus matemáticos de mayor calidad para mejorar el entrenamiento medio.
              • Creación de modelos base amigables con RL que usan recetas abiertas sin destilación a partir de modelos de razonamiento de COT largo.
              • Separar el formato de control de calidad y el contenido para comprender sus contribuciones individualmente.
              • Ampliando a la familia Octothinker con nuevas ramas, como el razonamiento integrado en herramientas.

              Mira el Papel, Página de la cara abrazada y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


              Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.