Los modelos de idiomas grandes (LLM) han demostrado habilidades excepcionales de resolución de problemas, pero tareas de razonamiento complejas, como las matemáticas a nivel de competencia o la intrincada generación de códigos, aumentan el desafío. Estas tareas exigen una navegación precisa a través de grandes espacios de solución y una meticulosa deliberación paso a paso. Los métodos existentes, al tiempo que mejoran la precisión, a menudo sufren altos costos computacionales, estrategias de búsqueda rígidas y dificultad para generalizar en diversos problemas. En este artículo, los investigadores introdujeron un nuevo marco, Razonflux Eso aborda estas limitaciones reinventando cómo LLMS planifica y ejecutan pasos de razonamiento utilizando estrategias jerárquicas guiadas por plantillas.

Enfoques recientes para mejorar el razonamiento de LLM se dividen en dos categorías: búsqueda deliberada y Métodos guiados por recompensas. Técnicas como Tree of Thoughts (TOT) permiten a los LLM explorar múltiples rutas de razonamiento, mientras que la búsqueda de árboles de Monte Carlo (MCTS) descompone los problemas en los pasos guiados por los modelos de recompensa de procesos (PRMS). Aunque efectivos, estos métodos se reducen mal debido al muestreo excesivo y al diseño de búsqueda manual. Por ejemplo, MCTS requiere iterarse a través de miles de pasos potenciales, por lo que es computacionalmente prohibitivo para aplicaciones del mundo real. Mientras tanto, la generación de recuperación aumentada (TRAPO) Métodos como Buffer of Thought (Bot) aprovechan las plantillas almacenadas de resolución de problemas, pero luchan por integrar múltiples plantillas de forma adaptativa, limitando su utilidad en escenarios complejos.

ReasonFlux presenta un marco estructurado que combina una biblioteca curada de plantillas de pensamiento de alto nivel con aprendizaje de refuerzo jerárquico (HRL) para planificar y refinar dinámicamente las rutas de razonamiento. En lugar de optimizar los pasos individuales, se centra en configurar óptimos trayectorias de plantilla—Sequencias de estrategias de resolución de problemas abstractos recuperadas de una base de conocimiento estructurada. Este enfoque simplifica el espacio de búsqueda y permite una adaptación eficiente a subproblemas. El marco consta de tres componentes principales:

  1. Biblioteca de plantillas estructuradas: El equipo de investigación construyó una biblioteca de 500 plantillas de pensamiento, cada una encapsulando una estrategia de resolución de problemas (por ejemplo, «sustitución trigonométrica por la optimización integral»). Las plantillas incluyen metadatos (nombres, etiquetas, descripciones y pasos de aplicación) que permite la recuperación eficiente. Por ejemplo, una plantilla etiquetada como «optimización de la función irracional» podría guiar a un LLM para aplicar sustituciones algebraicas específicas.
  1. Aprendizaje de refuerzo jerárquico:
    1. Ajuste fino basado en la estructura: Una base LLM (por ejemplo, Qwen2.5-32b) está ajustada para asociar metadatos de plantilla con sus descripciones funcionales, asegurando que comprenda cuándo y cómo aplicar cada plantilla.
    2. Optimización de trayectoria de plantilla: Utilizando el aprendizaje de preferencias, el modelo aprende a clasificar las secuencias de plantilla por su efectividad. Para un problema dado, se muestrean múltiples trayectorias, y sus tasas de éxito en problemas similares determinan recompensas. Esto entrena el modelo para priorizar secuencias de alta recompensa, refinando su capacidad de planificación.
  1. Escala de inferencia adaptativa: Durante la inferencia, ReasonFlux actúa como un «navegador», analizando el problema para recuperar plantillas relevantes y ajustar dinámicamente la trayectoria basada en resultados intermedios. Por ejemplo, si un paso que involucra «factorización polinómica» produce restricciones inesperadas, el sistema podría pivotar a una plantilla de «propagación de restricciones». Esta interacción iterativa entre la planificación y la ejecución refleja la resolución de problemas humanos, donde las soluciones parciales informan los pasos posteriores.

ReasonFlux se evaluó en puntos de referencia a nivel de competencia como Math, Aime y Olympiadbench, superando a los modelos de frontera (GPT-4O, Claude) y modelos especializados de código abierto (Deepseek-V3, Mathstral). Los resultados clave incluyen:

  • 91.2% precisión en matemáticassuperando la previa O1 de OpenAI en un 6.7%.
  • 56.7% en AIME 2024excediendo Deepseek-V3 en un 45% y coincide con O1-Mini.
  • 63.3% en Olimpiadbenchuna mejora del 14% sobre los métodos anteriores.

Además, la biblioteca de plantillas estructurada demostró una fuerte generalización: cuando se aplicó a problemas variantes, aumentó modelos más pequeños (p. Ej., Parámetros 7b) para superar a las contrapartes más grandes utilizando un razonamiento directo. Además, ReasonFlux logró un balance de exploración-explotación superior, que requiere 40% menos de pasos computacionales que los MCT y el mejor de N en tareas complejas (Figura 5).

En resumen, ReasonFlux redefine cómo los LLM se acercan al razonamiento complejo al desacoplar la estrategia de alto nivel desde la ejecución paso a paso. Su sistema de plantilla jerárquica reduce la sobrecarga computacional al tiempo que mejora la precisión y la adaptabilidad, abordando las brechas críticas en los métodos existentes. Al aprovechar el conocimiento estructurado y la planificación dinámica, el marco establece un nuevo estándar para un razonamiento eficiente y escalable, proporcionando que los modelos más pequeños y bien guiados pueden rivalizar incluso los sistemas fronterizos más grandes. Esta innovación abre vías para implementar un razonamiento avanzado en entornos limitados por recursos, desde la educación hasta la generación automatizada de código.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Vineet Kumar es un pasante de consultoría en MarktechPost. Actualmente está persiguiendo su BS del Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en aprendizaje profundo, visión por computadora y campos relacionados.

Por automata