¿Podemos mejorar el razonamiento de LLAMA 3 solo a través del entrenamiento solo? Astro muestra +16% a +20% de ganancias de referencia

Mejorar las capacidades de razonamiento de los grandes modelos de idiomas (LLM) sin cambios arquitectónicos es un desafío central para avanzar en la alineación y la usabilidad de la IA. Investigadores de Meta AI y la Universidad de Washington han introducido AstroRazonor autorizado por la búsqueda autorregresiva—En novedoso marco posterior a la capacitación diseñado para mejorar el razonamiento en Llama-3.1-70B-Instructo. Astro es único en los modelos de enseñanza para realizar búsqueda en contexto, autorreflexióny retrocesomecanismos a menudo asociados con los algoritmos de búsqueda simbólicos tradicionales de resolución de problemas humanos. A través de este enfoque, Astro aumenta el rendimiento matemático de Llama 3 en varios puntos de referencia competitivos con mejoras significativas:

  • Matemáticas 500: 65.8% ➝ 81.8%
  • AMC 2023: 37.5% ➝ 64.4%
  • AIME 2024: 10.0% ➝ 30.0%

Generación de la cadena de pensamiento guiada por la búsqueda

La metodología de Astro comienza con un Búsqueda de árboles de Monte Carlo (MCTS) sobre trayectorias matemáticas de resolución de problemas. Esta búsqueda explora las rutas de razonamiento correctas e incorrectas. La innovación clave es clonación del procedimiento: Los árboles de búsqueda completos se linealizan en larga cadena de pensamientos (cot) que naturalmente codifican fallas y recuperaciones a través de autorreflexión y retroceso. Estas trazas linealizadas se reescriben en lenguaje natural y se utilizan como base para el ajuste supervisado (SFT).

Esto da como resultado un modelo que no solo resuelve problemas paso a paso, sino que reevalúa su trayectoria, a menudo retroceso después de la autoevaluación para corregir errores de razonamiento intermedio. Por ejemplo, el modelo puede intervenir con frases como “Volvamos a donde configuramos la ecuación” cuando caiga su confianza interna.

Ajuste de fino supervisado: inyección de los antecedentes de búsqueda

Astro Fine-Tunes Llama-3.1-70B-Instructo en 36.1K Solutions Cot Solutions de conjuntos de datos de estilo Math, AMC/AIME y AOPS. El modelo entrenado con Astro-SFT logra:

  • Matemáticas 500: 69.6%
  • AMC 2023: 51.9%
  • AIME 2024: 16.3%

Estos puntajes son competitivos o superan los de las variantes de base y SPOC/Step-KTO entrenadas sin antecedentes de búsqueda explícitos. Es importante destacar que incluso SFT solo, sin el aprendizaje de refuerzo, los aumentan el rendimiento al exponer el modelo a datos de razonamiento estructurados por búsqueda.

Aprendizaje de refuerzo con la inicialización de la búsqueda

Astro procede a refuerzo de aprendizaje (RL) inicializando con el punto de control SFT y ejecutando un bucle RL usando un modificado Optimización de políticas relativas del grupo (GRPO). A diferencia de RL basado en preferencias estándar, Astro emplea Señales de recompensa verificables (+1 para correcto, -1 para incorrecto) en 8.7k indicaciones moderadamente difíciles. Durante el entrenamiento, la generación de cuna del modelo crece más tiempo, de ~ 1.8k a ~ 6k tokens, evitando una exploración interna más profunda.

El resultante Astro-RL el modelo logra:

  • Matemáticas 500: 81.8%
  • AMC 2023: 64.4%
  • AIME 2024: 30.0%

Estos resultados rivalizan o exceden los modelos con recuentos de parámetros más grandes y confirman la importancia de la inicialización de la búsqueda de Astro.

El comportamiento de retroceso se correlaciona con el éxito del razonamiento

Una observación empírica sorprendente es la correlación positiva entre la frecuencia de retroceso y el rendimiento. A medida que avanza el entrenamiento, Astro-RL exhibe acciones más autocorrectivas y una exploración más profunda. Los coeficientes de correlación de Pearson en los puntos de referencia exceden 0.8, lo que indica que la autorreflexión y el retroceso no son simplemente comportamientos cosméticos, sino que funcionan funcionalmente con una mejor precisión.

Ideas comparativas e impacto más amplio

Los experimentos de control que comparan Astro con modelos entrenados en soluciones directas de cot (sin antecedentes de búsqueda) revelan que incluso cuando se entrenan en el mismo Conjuntos de problemas y árboles de búsqueda, Astro supera constantemente. Por ejemplo, Astro-RL vence a Direct-RL por:

  • +2% en matemáticas 500
  • +3.9% en AMC 2023
  • +2.9% en AIME 2024

Además, las salidas de Astro se pueden visualizar como gráficos dirigidoscon nodos como pasos de razonamiento y bordes que capturan transiciones, reflexiones y correcciones, facilitando una mejor interpretabilidad.

Table de comida para llevar a astro

Conclusión

Astro demuestra que LLMS como Llama 3 puede aprender a razonar de manera más efectiva, no a través de modelos más grandes o prisión más larga, sino a través de técnicas de entrenamiento posterior a principios. Imitando los algoritmos de búsqueda en lenguaje natural, Astro permite que los modelos Piense antes de responder, duda sus propios pasosy corregirse a mitad de condición. Este marco establece un nuevo punto de referencia para ajustar los LLM abiertos para abordar el razonamiento humano a través de comportamientos inspirados en la búsqueda.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.