Aprendizaje de refuerzo, no ajuste: Nemotron-Tool-N1 Trains LLMS para usar herramientas con supervisión mínima y máxima generalización

Equipar LLM con herramientas o funciones externas se ha vuelto popular, mostrando un gran rendimiento en diversos dominios. La investigación existente depende de sintetizar grandes volúmenes de trayectorias de uso de herramientas a través de modelos de lenguaje avanzado y SFT para mejorar la capacidad de llamado de herramientas de LLMS. La limitación crítica se encuentra en la incapacidad de los conjuntos de datos sintéticos para capturar pasos de razonamiento explícitos, lo que resulta en entrenamiento de llamadas de herramientas superficiales. En muchos casos, el razonamiento se omite por completo durante la capacitación o se aplaza a la inferencia a través de técnicas de solicitud. Esto da como resultado pseudo-redacciones: los modelos simplemente aprenden a imitar los patrones de nivel de la superficie sin comprender realmente el proceso de toma de decisiones subyacente.

La investigación existente explora múltiples enfoques para mejorar las capacidades de uso de herramientas de LLMS. Los métodos anteriores se han centrado en dos estrategias clave para mejorar el aprendizaje de las herramientas. El primer enfoque se concentró en la curación del conjunto de datos y el refinamiento del modelo, que implica la creación de conjuntos de datos supervisados ​​a gran escala y aplicando técnicas de capacitación avanzadas como SFT y DPO Reforying Learning. Los LLM se combinan con varias herramientas externas, incluidos motores de búsqueda, calculadoras, herramientas de visión e intérpretes de Python, para expandir sus capacidades funcionales. El segundo enfoque se dirigió a la mejora del razonamiento, cambiando de la escala tradicional del tiempo de tren a estrategias de escala de tiempo de prueba más complejas. Los métodos anteriores se basaron en la supervisión a nivel de paso y los modelos de recompensa aprendidos para guiar las trayectorias de razonamiento.

Investigadores de la Universidad Estatal de Nvidia, la Universidad Estatal de Pensilvania y la Universidad de Washington han propuesto la serie Nemotron-Research-Tool-N1 para abordar las limitaciones de los métodos de uso de herramientas existentes. Diverge de las técnicas tradicionales de destilación de rastreo SFT y razonamiento mediante la implementación de un paradigma RL único. Inspirándose del éxito de Deepseek-R1, se ha desarrollado un método de supervisión ligero para centrarse en la validez estructural y la evaluación de corrección funcional de las invocaciones de herramientas. El modelo Nemotron-Research-Tool-N1 emplea un mecanismo de recompensa binaria que permite al modelo desarrollar de forma autónoma estrategias de razonamiento sin depender de trayectorias de razonamiento anotadas explícitamente.

Los investigadores unifican y preprocesan datos de conjuntos de datos de llamadas de herramientas existentes, XLAM y un subconjunto de herramientas, que proporcionan trayectorias sintéticas de llamada sintética de una sola giro y múltiple. Se crea una plantilla de indicación ligera para guiar la generación de llamadas de herramientas, con instrucciones explícitas para el razonamiento intermedio dentro de … Etiquetas e invocación de herramientas encerradas en … . La plantilla ayuda a minimizar las restricciones de formato rígido y reducir el riesgo de sobreajustar a patrones de inmediato específicos. El modelo de columna vertebral primario utilizado es QWEN2.5-7B/14B-Instructo, y para evaluar la capacidad de generalización del método propuesto, las evaluaciones se realizan en modelos de red troncal alternativos, incluidas múltiples variantes de la familia LLAMA.

Los resultados en los puntos de referencia BFCL y API-Bank muestran el rendimiento superior de los modelos Nemotron-Research-Tool-N1. En el punto de referencia BFCL, los modelos Tool-N1-7B/14B superan a los modelos de código cerrado como GPT-4O y modelos especializados ajustados como XLAM-2-70B y ToolAace-8B. Los modelos superan las líneas de base SFT entrenadas en fuentes de datos idénticas, destacando la efectividad del enfoque RL de estilo R1. Además, el punto de referencia API-Bank valida estos hallazgos, con la herramienta-N1-7B/14B logrando 4.12% y un 5.03% mayor de precisión que GPT-4O. Estos resultados demuestran de manera concluyente el potencial del método propuesto para mejorar las capacidades de llamadas de herramientas de modelos de idiomas grandes a través de un nuevo paradigma de aprendizaje de refuerzo.

En conclusión, los investigadores introdujeron Nemotron-Rearch-Tool-N1, un avance significativo en las capacidades de uso de herramientas de LLM. La investigación muestra un cambio de paradigma de las metodologías SFT tradicionales al introducir un nuevo enfoque RL basado en reglas. El método propuesto permite a los modelos desarrollar estrategias de razonamiento sofisticadas sin depender de trayectorias de razonamiento anotadas explícitamente. Las evaluaciones de referencia en BFCL y API-Bank validan constantemente la efectividad del enfoque, mostrando mejoras sustanciales de rendimiento sobre las líneas de base existentes. Los hallazgos abren nuevas vías para desarrollar modelos de lenguaje más adaptables e inteligentes que pueden generar de forma autónoma estrategias de razonamiento.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.