DualDistill y Agentic-R1: Cómo AI combina el lenguaje natural y el uso de herramientas para la resolución de problemas de matemáticas superiores

Los modelos existentes de razonamiento de long-st han alcanzado el rendimiento de vanguardia en el razonamiento matemático al generar trayectorias de razonamiento con autoverificación y refinamiento iterativo. Sin embargo, los modelos de cuna larga de código abierto dependen solo de las trazas de razonamiento del lenguaje natural, haciéndolos computacionalmente caros y propensos a errores sin mecanismos de verificación. Aunque el razonamiento asistido por herramientas proporciona una mayor eficiencia y confiabilidad para los cálculos numéricos a gran escala a través de marcos como OpenHands que integran intérpretes de código, estos enfoques de agente luchan con problemas de razonamiento abstracto o conceptualmente complejos.

Marco dualdistill y modelo de agente-R1

Investigadores de la Universidad Carnegie Mellon han propuesto Dualdistillun marco de destilación que combina trayectorias de dos maestros complementarios para crear un modelo de estudiante unificado. El marco utiliza un maestro orientado al razonamiento y un maestro acuático para desarrollar herramientas para desarrollar Agente-R1un modelo que aprende a seleccionar la estrategia más apropiada para cada tipo de problema dinámicamente. Agentic-R1 ejecuta código para tareas aritméticas y algorítmicas mientras emplea un razonamiento de lenguaje natural para problemas abstractos. DualDistill utiliza la composición de trayectoria para destilar el conocimiento de ambos maestros complementarios, seguido de la autodistilación. Además, los investigadores utilizaron OpenHands como maestro de razonamiento de agente, y Deepseek-R1 como maestro de razonamiento basado en texto.

https://arxiv.org/abs/2507.05707

Evaluación y puntos de referencia

El método propuesto se evalúa en múltiples puntos de referencia como Profundo-l y Combinatorics300 Para probar varios aspectos del razonamiento matemático. Se compara con las líneas de base Deepseek-R1-Distill y Qwen-2.5-instructo. El modelo estudiantil, Agentic-R1, muestra grandes mejoras de rendimiento que se benefician de las estrategias de agente y de razonamiento. Superenta dos modelos de tamaño similar, cada uno especializado en estrategias asistidas por herramientas (QWEN2.5-7b-Instructo) o razonamiento puro (Deepseek-R1-Distill7b). Agentic-R1 supera a los modelos basados en herramientas mediante el uso de estrategias de razonamiento de manera inteligente cuando es necesario, al tiempo que mantiene una mayor eficiencia en comparación con los modelos de razonamiento puro en tareas matemáticas estándar.

Análisis cualitativo y patrones de uso de herramientas

Ejemplos cualitativos muestran que AGENTIC-R1 exhibe patrones de uso de herramientas inteligentes, activando herramientas de ejecución de código en 79.2% de problemas de combinatorics300 de manera computacionalmente exigente, al tiempo que reduce la activación a 52.0% Para los problemas de conjunto de datos AMC más simples. Agentic-R1 aprende a invocar herramientas adecuadamente a través del ajuste fino supervisado solo, sin instrucciones explícitas, equilibrando efectivamente la eficiencia computacional y la precisión del razonamiento.

Robustez a los maestros imperfectos

El marco sigue siendo efectivo incluso cuando está guiado por maestros imperfectos. Por ejemplo, el maestro de agente solo logra 48.4% precisión en combinatorics300, sin embargo, el modelo de estudiante mejoró de 44.7% a 50.9%en última instancia, superando al maestro.

Conclusión

En resumen, el Dualdistill El marco combina efectivamente las fortalezas del razonamiento del lenguaje natural y la resolución de problemas asistidos por herramientas al destilarse el conocimiento complementario de dos modelos de maestros especializados en un solo modelo de estudiante versátil, Agente-R1. A través de la composición de la trayectoria y la autodistilación, Agentic-R1 aprende a seleccionar dinámicamente la estrategia más apropiada para cada problema, equilibrando la precisión y la eficiencia computacional. Las evaluaciones en diversos puntos de referencia de razonamiento matemático demuestran que el agente-R1 supera tanto el razonamiento puro como los modelos basados en herramientas, incluso cuando se aprenden de maestros imperfectos. Este trabajo destaca un enfoque prometedor para construir agentes de IA adaptables capaces de integrar estrategias heterogéneas de resolución de problemas para un razonamiento más robusto y eficiente.

Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Conozca el boletín de AI Dev leídos por 40k+ desarrolladores e investigadores de Nvidia, Openai, DeepMind, Meta, Microsoft, JP Morgan Chase, Amgen, Aflac, Wells Fargo y 100 más [SUBSCRIBE NOW]

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

DualDistill y Agentic-R1: Cómo AI combina el lenguaje natural y el uso de herramientas para la resolución de problemas de matemáticas superiores

ByEquipo de 7 minutos

Marco dualdistill y modelo de agente-R1

Evaluación y puntos de referencia

Análisis cualitativo y patrones de uso de herramientas

Robustez a los maestros imperfectos

Conclusión

By Equipo de 7 minutos

Related Post

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Llevando herramientas de diseño de proteínas impulsadas por IA a biólogos de todo el mundo | Noticias del MIT

Creación de NQS basado en transformadores para sistemas de giro frustrados con NetKet

You missed

Un dinosaurio de 155 millones de años puede ser el primer braquiosáurido jurásico encontrado en América del Sur

¿Qué tienen en común el pene de mapache, la carne de perro y el racismo?

Hormigas limpiadoras escalan hormigas gigantes en un impresionante descubrimiento de simbiosis en el desierto de Arizona

¡Conozca a los oradores que se unirán a nuestro panel “Cómo lanzar y escalar en Malta” en la Cumbre UE-Startups 2026!