Conoce a Satori: un nuevo marco de IA para avanzar en el razonamiento de LLM a través del pensamiento profundo sin un modelo de maestro fuerte

Los modelos de lenguaje grande (LLM) han demostrado capacidades de razonamiento notables en la resolución de problemas matemáticos, la inferencia lógica y la programación. Sin embargo, su efectividad a menudo depende de dos enfoques: ajuste de fino supervisado (SFT) con cadenas de razonamiento anotadas por humanos y Estrategias de búsqueda de tiempo de inferencia guiado por verificadores externos. Si bien el ajuste superior supervisado ofrece razonamiento estructurado, requiere un esfuerzo de anotación significativo y está limitado por la calidad del modelo de maestro. Las técnicas de búsqueda de tiempo de inferencia, como el muestreo guiado por verificadores, mejoran la precisión pero aumentan las demandas computacionales. Esto plantea una pregunta importante: ¿puede un LLM desarrollar capacidades de razonamiento de forma independiente, sin confiar en una extensa supervisión humana o verificadores externos? Para abordar esto, los investigadores han introducido Satoriun parámetro 7b LLM diseñado para internalizar los mecanismos de búsqueda de razonamiento y superación personal.

Introducción de Satori: un modelo para el razonamiento autorreflexivo y autoexploratorio

Investigadores de MIT, Universidad de Tecnología y Diseño de Singapur, Harvard, MIT-IBM Watson AI Lab, IBM Research y UMass Amherst proponer Satoriun modelo que emplea búsqueda autorregresiva—Un mecanismo que permite refinar sus pasos de razonamiento y explorar estrategias alternativas de forma autónoma. A diferencia de los modelos que se basan en una extensa destilación de ajuste fino o de conocimiento, Satori mejora el razonamiento a través de una novela Cadena de acción-pensamiento (abrigo) Paradigma de razonamiento. Construido sobre Qwen-2.5-math-7bSatori sigue un marco de capacitación en dos etapas: Ajuste de formato a pequeña escala (FT) y superación personal a gran escala a través del aprendizaje de refuerzo (RL).

Detalles técnicos y beneficios de Satori

El marco de capacitación de Satori consta de dos etapas:

  1. Etapa de ajuste de formato (FT):
    • Se utiliza un conjunto de datos a pequeña escala (~ 10k muestras) para introducir Razonamiento de abrigoque incluye tres metaacciones:
      • Continuar (<| continuar |>): Extiende la trayectoria de razonamiento.
      • Reflejar (<| reflejar |>): Indica una autocomprobación en los pasos de razonamiento anteriores.
      • Explorar (<| explorar |>): Anime al modelo a considerar enfoques alternativos.
    • A diferencia del entrenamiento de cuna convencional, que sigue caminos de razonamiento predefinidos, Coat habilita la toma de decisiones dinámicas durante el razonamiento.
  2. Etapa de aprendizaje de refuerzo (RL):
    • Un proceso de superación personal a gran escala utilizando Aprendizaje de refuerzo con reiniciar y explorar (Rae).
    • El modelo reinicia el razonamiento de los pasos intermediosrefinando su enfoque de resolución de problemas de forma iterativa.
    • Un modelo de recompensa asigna puntajes basados ​​en autocorrecciones y profundidad de exploración, lo que lleva a aprendizaje progresivo.

Perspectivas

Las evaluaciones muestran que Satori se desempeña fuertemente en múltiples puntos de referencia, a menudo superando los modelos que se basan en el ajuste fino supervisado o la destilación de conocimiento. Los hallazgos clave incluyen:

  • Rendimiento de referencia matemática:
    • Satori supera a Qwen-2.5-Math-7B-Instructo en conjuntos de datos como GSM8K, Math500, Olympiadbench, AMC2023 y AIME2024.
    • Capacidad de superación personal: Con rondas de aprendizaje de refuerzo adicionales, Satori demuestra un refinamiento continuo sin intervención humana adicional.
  • Generalización fuera de dominio:
    • A pesar de entrenar principalmente en razonamiento matemático, Satori exhibe fuerte generalización a diversas tareas de razonamiento, incluido el razonamiento lógico (Folio, BoardGameqa), el razonamiento de sentido común (estrategiaqa) y el razonamiento tabular (tablebench).
    • Esto sugiere que La superación personal impulsada por RL mejora la adaptabilidad más allá de los contextos matemáticos.
  • Ganancias de eficiencia:
    • Comparado con convencional supervisado ajustadoSatori logra un rendimiento de razonamiento similar o mejor con significativamente menos muestras de entrenamiento anotadas (10k frente a 300k para modelos comparables).
    • Este enfoque reduce la dependencia de anotaciones humanas extensas al tiempo que mantiene capacidades de razonamiento efectivas.

Conclusión: un paso hacia el aprendizaje autónomo en LLMS

Satori presenta una dirección prometedora en Investigación de razonamiento de LLMdemostrando que los modelos pueden refinar su propio razonamiento sin verificadores externos o modelos de maestros de alta calidad. Integrando Razonamiento de abrigos, aprendizaje de refuerzo y búsqueda autorregresivaSatori muestra que los LLM pueden mejorar iterativamente sus habilidades de razonamiento. Este enfoque no solo mejora la precisión de resolución de problemas, sino que también amplía la generalización a tareas invisibles. El trabajo futuro puede explorar la refinación Marcos de metaacciones, optimización de estrategias de aprendizaje de refuerzo y extender estos principios a dominios más amplios.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de agente múltiple de código abierto para evaluar el complejo sistema de IA conversacional’ (promovido)


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.