Los modelos existentes de razonamiento de long-st han alcanzado el rendimiento de vanguardia en el razonamiento matemático al generar trayectorias de razonamiento con autoverificación y refinamiento iterativo. Sin embargo, los modelos de cuna larga de código abierto dependen solo de las trazas de razonamiento del lenguaje natural, haciéndolos computacionalmente caros y propensos a errores sin mecanismos de verificación. Aunque el razonamiento asistido por herramientas proporciona una mayor eficiencia y confiabilidad para los cálculos numéricos a gran escala a través de marcos como OpenHands que integran intérpretes de código, estos enfoques de agente luchan con problemas de razonamiento abstracto o conceptualmente complejos.
Marco dualdistill y modelo de agente-R1
Investigadores de la Universidad Carnegie Mellon han propuesto Dualdistillun marco de destilación que combina trayectorias de dos maestros complementarios para crear un modelo de estudiante unificado. El marco utiliza un maestro orientado al razonamiento y un maestro acuático para desarrollar herramientas para desarrollar Agente-R1un modelo que aprende a seleccionar la estrategia más apropiada para cada tipo de problema dinámicamente. Agentic-R1 ejecuta código para tareas aritméticas y algorítmicas mientras emplea un razonamiento de lenguaje natural para problemas abstractos. DualDistill utiliza la composición de trayectoria para destilar el conocimiento de ambos maestros complementarios, seguido de la autodistilación. Además, los investigadores utilizaron OpenHands como maestro de razonamiento de agente, y Deepseek-R1 como maestro de razonamiento basado en texto.
Evaluación y puntos de referencia
El método propuesto se evalúa en múltiples puntos de referencia como Profundo-l y Combinatorics300 Para probar varios aspectos del razonamiento matemático. Se compara con las líneas de base Deepseek-R1-Distill y Qwen-2.5-instructo. El modelo estudiantil, Agentic-R1, muestra grandes mejoras de rendimiento que se benefician de las estrategias de agente y de razonamiento. Superenta dos modelos de tamaño similar, cada uno especializado en estrategias asistidas por herramientas (QWEN2.5-7b-Instructo) o razonamiento puro (Deepseek-R1-Distill7b). Agentic-R1 supera a los modelos basados en herramientas mediante el uso de estrategias de razonamiento de manera inteligente cuando es necesario, al tiempo que mantiene una mayor eficiencia en comparación con los modelos de razonamiento puro en tareas matemáticas estándar.
Análisis cualitativo y patrones de uso de herramientas
Ejemplos cualitativos muestran que AGENTIC-R1 exhibe patrones de uso de herramientas inteligentes, activando herramientas de ejecución de código en 79.2% de problemas de combinatorics300 de manera computacionalmente exigente, al tiempo que reduce la activación a 52.0% Para los problemas de conjunto de datos AMC más simples. Agentic-R1 aprende a invocar herramientas adecuadamente a través del ajuste fino supervisado solo, sin instrucciones explícitas, equilibrando efectivamente la eficiencia computacional y la precisión del razonamiento.
Robustez a los maestros imperfectos
El marco sigue siendo efectivo incluso cuando está guiado por maestros imperfectos. Por ejemplo, el maestro de agente solo logra 48.4% precisión en combinatorics300, sin embargo, el modelo de estudiante mejoró de 44.7% a 50.9%en última instancia, superando al maestro.
Conclusión
En resumen, el Dualdistill El marco combina efectivamente las fortalezas del razonamiento del lenguaje natural y la resolución de problemas asistidos por herramientas al destilarse el conocimiento complementario de dos modelos de maestros especializados en un solo modelo de estudiante versátil, Agente-R1. A través de la composición de la trayectoria y la autodistilación, Agentic-R1 aprende a seleccionar dinámicamente la estrategia más apropiada para cada problema, equilibrando la precisión y la eficiencia computacional. Las evaluaciones en diversos puntos de referencia de razonamiento matemático demuestran que el agente-R1 supera tanto el razonamiento puro como los modelos basados en herramientas, incluso cuando se aprenden de maestros imperfectos. Este trabajo destaca un enfoque prometedor para construir agentes de IA adaptables capaces de integrar estrategias heterogéneas de resolución de problemas para un razonamiento más robusto y eficiente.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto.
Conozca el boletín de AI Dev leídos por 40k+ desarrolladores e investigadores de Nvidia, Openai, DeepMind, Meta, Microsoft, JP Morgan Chase, Amgen, Aflac, Wells Fargo y 100 más [SUBSCRIBE NOW]
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
