Salesforce AI Research presenta xRouter: un enrutador de aprendizaje por refuerzo para la orquestación de LLM consciente de los costos

Cuando su aplicación puede llamar a muchos LLM diferentes con precios y capacidades muy diferentes, ¿quién debería decidir cuál responde a cada solicitud? El equipo de investigación de IA de Salesforce presenta ‘xRouter’, un sistema de enrutamiento basado en llamadas de herramientas que aborda esta brecha con un enrutador basado en aprendizaje por refuerzo y aprende cuándo responder localmente y cuándo llamar a modelos externos, mientras rastrea el costo a nivel de token.

¿Qué es xRouter?

xRouter es un sistema de orquestación basado en llamadas de herramientas construido sobre Qwen2.5-7B-Instruct como columna vertebral del enrutador. El enrutador es un modelo sintonizado con instrucciones con capacidades de llamada de herramientas que decide qué modelo descendente invocar, cómo solicitarlo y si sintetizar o seleccionar una respuesta. La implementación utiliza DAPO, Optimización de políticas de ventajas distributivas, dentro del marco de aprendizaje por refuerzo de Verl, y expone una API compatible con OpenAI.

El enrutador opera con más de 20 herramientas LLM en el sistema completo. Estas herramientas abarcan niveles premium, estándar, económico y especializado, incluidas las variantes GPT-5, GPT-4.1, GPT-5-Mini, GPT-5-Nano, o3, Kimi K2, DeepSeek-R1, Qwen3-235B y modelos GPT-OSS. El grupo de descarga es un subconjunto de 12 modelos que incluye GPT-5, GPT-5-Mini, GPT-5-Nano, GPT-4o, GPT-4.1, o3, o3-Pro, o4-Mini, GPT-OSS-120B, GPT-OSS-20B y dos variantes de Gemini-2.5.

https://arxiv.org/pdf/2510.08439

Recompensa consciente de los costos y activación del éxito

El enrutamiento se plantea como un problema de aprendizaje por refuerzo. Para cada episodio, la recompensa combina una señal binaria de éxito y una penalización de coste. El equipo de investigación define una recompensa que otorga una bonificación fija cuando la respuesta final es correcta y luego resta un término proporcional al costo total normalizado de todas las llamadas del modelo. Si la respuesta es incorrecta, la recompensa es cero sin importar lo barata que sea.

Según la página de ponderaciones del modelo, recompensa = calidad − λ × costo_normalizado, donde λ es un coeficiente de penalización de costo. Los episodios con fallas efectivamente tienen calidad cero. Este objetivo “limitado al éxito y moldeado en costos” obliga al enrutador a lograr primero la corrección y luego optimizar el costo entre las estrategias exitosas. En la práctica, la capacitación utiliza 3 configuraciones de penalización de costos, que producen las variantes xRouter-7B-1, xRouter-7B-2 y xRouter-7B-3.

https://arxiv.org/pdf/2510.08439

Datos de entrenamiento y diseño de señales

Los datos de entrenamiento de xRouter provienen de Reasoning360, que incluye tareas de matemáticas, código y razonamiento general con estimaciones de dificultad derivadas de un sólido modelo de referencia, Qwen3-32B. El equipo de investigación estratifica las muestras en bandas fáciles, medias y difíciles, y agrega charlas, recuperación y preguntas factuales más simples para enseñarle al enrutador cuándo puede responder directamente sin delegación. Cada muestra incluye descripciones y precios de modelos de diferentes niveles. El sistema también actualiza el catálogo de modelos y altera los costos para evitar el ajuste excesivo a una tabla de precios estática.

Las trayectorias fallidas, como respuestas incorrectas de modelos costosos o llamadas innecesarias cuando el enrutador podría haber respondido solo, aún generan un costo total y no reciben ninguna recompensa. Esto produce una señal de aprendizaje clara, donde las puertas de corrección recompensan y el costo da forma a la política de enrutamiento.

¿Cómo se comporta el enrutador en el momento de la inferencia?

El enrutador admite tres modos de ejecución. Puede responder directamente desde la red troncal sin necesidad de llamar a herramientas. Puede llamar a uno o más modelos posteriores y luego sintetizar una respuesta utilizando su propio razonamiento sobre sus resultados. También puede llamar a modelos posteriores y utilizar una herramienta especial select_response para elegir una de las respuestas como respuesta final. Estos modos se implementan mediante llamadas a funciones en una interfaz de estilo OpenAI, que el motor de orquestación ejecuta a través de LiteLLM y SGLang.

Empíricamente, las instancias de xRouter entrenadas utilizan una combinación de respuestas directas y sintetizadas. Los enrutadores disponibles en el mercado, como GPT-4o, GPT-4.1, GPT-5, Qwen2.5-7B y Qwen3-8B, tienden a responder directamente la mayor parte del tiempo, incluso cuando se les indica que descarguen en caso de incertidumbre. Esta es una diferencia de comportamiento importante y explica parte de la ganancia de eficiencia.

Resultados cuantitativos y utilidad de costos

En líneas base de enrutamiento estático en Minerva, MATH-500, Olympiad Bench, AIME-24, AMC-23, Codeforces, Code-Contests y Human-EvalPlus, las variantes de xRouter-7B mejoran constantemente la precisión en comparación con el uso del mismo modelo base como un enrutador no capacitado. xRouter-7B-2, por ejemplo, alcanza una precisión cercana a GPT-5 en Olympiad Bench y utiliza aproximadamente una octava parte del costo de evaluación de GPT-5.

En la comparación a nivel de sistema en LiveCodeBenchv5, GPQADiamond, AIME25, MT-Bench, IFEval y LiveBench, xRouter-7B-3 logra la precisión promedio más alta en LiveCodeBenchv5 entre todos los sistemas probados, y lo hace con un costo moderado. En tareas como GPQA, las variantes de xRouter alcanzan entre el 80 y el 90 por ciento de la precisión de GPT-5 y consumen menos de una quinta parte del costo. El equipo de investigación resume que su recompensa consciente de los costos puede reducir el costo de inferencia hasta en un 80 por ciento con tasas de finalización similares. El modelo pesa una tarjeta HF que reporta una reducción de costos de hasta un 60 por ciento para una calidad comparable en otras configuraciones.

El equipo de investigación también define el “costo utilidad” como la precisión dividida por el costo. Los modelos únicos de código abierto con precios de API muy bajos a menudo alcanzan un costo de utilidad más alto, pero con una precisión absoluta más baja. xRouter se ubica en el medio, intercambiando algo de costo-utilidad por un mejor desempeño de las tareas, que generalmente es lo que les importa a los sistemas de producción.

Conclusiones clave

xRouter es una herramienta que llama a un enrutador basada en Qwen2.5 7B Instruct que aprende a seleccionar entre más de 20 LLM externos con una política de aprendizaje reforzado que tiene en cuenta explícitamente los costos. El enrutador utiliza una recompensa determinada por el éxito, las tareas solo obtienen una recompensa positiva cuando la respuesta final es correcta y, dentro de las trayectorias exitosas, aplica un término de penalización de costo λ multiplicado por el costo normalizado, lo que produce tres variantes de xRouter 7B con diferentes compensaciones en la precisión del costo. La capacitación en Reasoning360 con estratificación de dificultades y consultas sintéticas sencillas le enseña a xRouter cuándo responder directamente y cuándo descargar, mientras que alterar los precios y los grupos de modelos mejora la solidez ante los cambios en los catálogos de proveedores. En los puntos de referencia de matemáticas, codificación y razonamiento, los modelos xRouter 7B logran una precisión cercana a GPT 5 en tareas difíciles como Olympiad Bench y alrededor del 80 al 90 por ciento de precisión de GPT 5 en GPQA, al tiempo que reducen los costos de descarga hasta entre un 60 y un 80 por ciento dependiendo de la configuración de evaluación.

Notas editoriales

xRouter es un paso práctico hacia la orquestación consciente de los costos para flotas LLM heterogéneas. Muestra que un enrutador de tamaño mediano, entrenado con DAPO en Reasoning360 usando una recompensa determinada por el costo y controlada por el éxito, puede acercarse consistentemente a la precisión de GPT 5 y al mismo tiempo reducir el costo de descarga entre un 60 y un 80 por ciento.

Consulte el PAPEL y el Peso del modelo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.