NVIDIA AI lanza Orchestrator-8B: un controlador capacitado en aprendizaje por refuerzo para una selección eficiente de herramientas y modelos

¿Cómo puede un sistema de IA aprender a elegir el modelo o herramienta adecuado para cada paso de una tarea en lugar de depender siempre de un modelo grande para todo? Los investigadores de NVIDIA lanzan ToolOrchestra, un método novedoso para entrenar un modelo de lenguaje pequeño para que actúe como orquestador: el “cerebro” de un agente heterogéneo de uso de herramientas.

https://arxiv.org/pdf/2511.21689

De agentes de modelo único a una política de orquestación

La mayoría de los agentes actuales siguen un patrón simple. Un único modelo grande, como GPT-5, recibe un mensaje que describe las herramientas disponibles y luego decide cuándo llamar a la búsqueda web o a un intérprete de código. Todo el razonamiento de alto nivel sigue estando dentro del mismo modelo. ToolOrchestra cambia esta configuración. Entrena un modelo de controlador dedicado llamado ‘Orchestrator-8B’, que trata tanto las herramientas clásicas como otros LLM como componentes invocables.

Un estudio piloto de la misma investigación muestra por qué las indicaciones ingenuas no son suficientes. Cuando se le solicita a Qwen3-8B que enrute entre GPT-5, GPT-5 mini, Qwen3-32B y Qwen2.5-Coder-32B, delega el 73 por ciento de los casos a GPT-5. Cuando GPT-5 actúa como su propio orquestador, llama a GPT-5 o GPT-5 mini en el 98 por ciento de los casos. El equipo de investigación los llama sesgos de mejora personal y otros sesgos de mejora. La política de enrutamiento utiliza modelos sólidos e ignora las instrucciones de costos.

En cambio, ToolOrchestra entrena explícitamente a un pequeño orquestador para este problema de enrutamiento, utilizando el aprendizaje por refuerzo en trayectorias completas de múltiples giros.

¿Qué es el orquestador 8B?

Orchestrator-8B es un transformador decodificador de parámetros 8B únicamente. Se construye ajustando Qwen3-8B como modelo de orquestación y se lanza en Hugging Face.

En el momento de la inferencia, el sistema ejecuta un bucle de múltiples vueltas que alterna razonamiento y llamadas a herramientas. El lanzamiento tiene tres pasos principales. Primero, Orchestrator 8B lee las instrucciones del usuario y una descripción opcional de preferencia de lenguaje natural, por ejemplo, una solicitud para priorizar la baja latencia o evitar la búsqueda en la web. En segundo lugar, genera una cadena interna de razonamiento, estilo de pensamiento y planifica una acción. En tercer lugar, elige una herramienta del conjunto disponible y emite una llamada de herramienta estructurada en un formato JSON unificado. El entorno ejecuta esa llamada, agrega el resultado como una observación y lo devuelve al siguiente paso. El proceso se detiene cuando se produce una señal de terminación o se alcanza un máximo de 50 vueltas.

Las herramientas cubren tres grupos principales. Las herramientas básicas incluyen la búsqueda web de Tavily, un intérprete de código de zona de pruebas de Python y un índice de Faiss local creado con Qwen3-Embedding-8B. Los LLM especializados incluyen Qwen2.5-Math-72B, Qwen2.5-Math-7B y Qwen2.5-Coder-32B. Las herramientas generalistas de LLM incluyen GPT-5, GPT-5 mini, Llama 3.3-70B-Instruct y Qwen3-32B. Todas las herramientas comparten el mismo esquema con nombres, descripciones en lenguaje natural y especificaciones de parámetros escritos.

Aprendizaje por refuerzo de extremo a extremo con recompensas multiobjetivo

ToolOrchestra formula todo el flujo de trabajo como un proceso de decisión de Markov. El estado contiene el historial de conversaciones, llamadas y observaciones de herramientas anteriores y preferencias del usuario. Las acciones son el siguiente paso del texto e incluyen tokens de razonamiento y un esquema de llamada de herramienta. Después de hasta 50 pasos, el entorno calcula una recompensa escalar por la trayectoria completa.

La recompensa tiene tres componentes. La recompensa del resultado es binaria y depende de si la trayectoria resuelve la tarea. Para respuestas abiertas, GPT-5 se utiliza como juez para comparar el resultado del modelo con la referencia. Las recompensas por eficiencia penalizan tanto el coste monetario como la latencia del reloj de pared. El uso de tokens para herramientas patentadas y de código abierto se asigna al costo monetario mediante API pública y precios de Together AI. La recompensa de preferencia mide qué tan bien el uso de la herramienta coincide con un vector de preferencia del usuario que puede aumentar o disminuir el peso en el costo, la latencia o herramientas específicas. Estos componentes se combinan en un único escalar utilizando el vector de preferencia.

La política está optimizada con la optimización de políticas relativas al grupo GRPO, una variante del aprendizaje por refuerzo de gradiente de políticas que normaliza las recompensas dentro de grupos de trayectorias para la misma tarea. El proceso de capacitación incluye filtros que eliminan trayectorias con un formato de llamada de herramienta no válido o una variación de recompensa débil para estabilizar la optimización.

https://arxiv.org/pdf/2511.21689

Para hacer posible esta capacitación a escala, el equipo de investigación planea presentar ToolScale, un conjunto de datos sintéticos de tareas de llamada de herramientas de varios pasos. Para cada dominio, un LLM genera un esquema de base de datos, entradas de base de datos, API específicas de dominio y luego diversas tareas de usuario con secuencias reales de llamadas a funciones e información intermedia requerida.

Resultados comparativos y perfil de costes

El equipo de investigación de NVIDIA evalúa Orchestrator-8B en tres puntos de referencia desafiantes: Humanity’s Last Exam, FRAMES y τ² Bench. Estos puntos de referencia apuntan al razonamiento a largo plazo, la factualidad bajo recuperación y la llamada de funciones en un entorno de control dual.

En las preguntas de texto del último examen de la humanidad, Orchestrator-8B alcanza una precisión del 37,1 por ciento. GPT-5 con herramientas básicas alcanza el 35,1 por ciento en el mismo entorno. En FRAMES, Orchestrator-8B logra un 76,3 por ciento frente al 74,0 por ciento de GPT-5 con herramientas. En τ² Bench, Orchestrator-8B obtiene una puntuación del 80,2 por ciento frente al 77,7 por ciento de GPT-5 con herramientas básicas.

https://arxiv.org/pdf/2511.21689

La brecha de eficiencia es mayor. En la configuración que utiliza herramientas básicas más herramientas LLM especializadas y generalistas, Orchestrator-8B tiene un costo promedio de 9,2 centavos y una latencia de 8,2 minutos por consulta, promediado sobre Humanity’s Last Exam y FRAMES. En la misma configuración, GPT-5 cuesta 30,2 céntimos y tarda una media de 19,8 minutos. La tarjeta modelo resume esto como aproximadamente el 30 por ciento del costo monetario y 2,5 veces más rápido para Orchestrator-8B en comparación con GPT-5.

El análisis del uso de herramientas respalda esta imagen. Claude Opus 4.1 utilizado como orquestador se llama GPT-5 la mayor parte del tiempo. El GPT-5 utilizado como orquestador prefiere el GPT-5 mini. Orchestrator-8B distribuye las llamadas de manera más uniforme entre modelos potentes, modelos más baratos, búsqueda, recuperación local y el intérprete de código, y alcanza una mayor precisión a un costo menor con el mismo presupuesto de turno.

https://arxiv.org/pdf/2511.21689

Los experimentos de generalización reemplazan las herramientas de tiempo de entrenamiento con modelos invisibles como OpenMath Llama-2-70B, DeepSeek-Math-7B-Instruct, Codestral-22B-v0.1, Claude Sonnet-4.1 y Gemma-3-27B. Orchestrator-8B aún logra el mejor equilibrio entre precisión, costo y latencia entre todas las líneas de base en este entorno. Un conjunto de pruebas independiente que reconoce las preferencias muestra que Orchestrator-8B también rastrea las preferencias de uso de herramientas del usuario más de cerca que GPT-5, Claude Opus-4.1 y Qwen3-235B-A22B bajo la misma métrica de recompensa.

Conclusiones clave

ToolOrchestra entrena un modelo de orquestación de parámetros 8B, Orchestrator-8B, que selecciona y secuencia herramientas y LLM para resolver tareas agentes de varios pasos utilizando el aprendizaje reforzado con resultados, eficiencia y recompensas conscientes de las preferencias. Orchestrator-8B se lanza como modelo de peso abierto en Hugging Face. Está diseñado para coordinar diversas herramientas como búsqueda web, ejecución de código, recuperación y LLM especializados a través de un esquema unificado. En Humanity’s Last Exam, Orchestrator-8B alcanza una precisión del 37,1 por ciento, superando a GPT-5 con un 35,1 por ciento, siendo aproximadamente 2,5 veces más eficiente, y en τ² Bench y FRAMES supera a GPT-5 mientras utiliza aproximadamente el 30 por ciento del costo. El marco muestra que la ingenua solicitud de un LLM de frontera como su propio enrutador conduce a un sesgo de automejora en el que se abusa de sí mismo o de un pequeño conjunto de modelos sólidos, mientras que un orquestador capacitado aprende una política de enrutamiento más equilibrada y consciente de los costos a través de múltiples herramientas.

Notas editoriales

ToolOrchestra de NVIDIA es un paso práctico hacia sistemas de IA compuestos donde un modelo de orquestación 8B, Orchestrator-8B, aprende una política de enrutamiento explícita sobre herramientas y LLM en lugar de depender de un modelo de frontera única. Muestra ganancias claras en Humanity’s Last Exam, FRAMES y τ² Bench con alrededor del 30 por ciento del costo y alrededor de 2,5 veces mejor eficiencia que las líneas base basadas en GPT-5, lo que lo hace directamente relevante para los equipos que se preocupan por la precisión, la latencia y el presupuesto. Este lanzamiento convierte a la política de orquestación en un objetivo de optimización de primera clase en los sistemas de IA.

Consulte el papel, el repositorio, la página del proyecto y los pesos del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.