Un nuevo software de AI de AI de software de escalas de supervisión centrada en la agencia con solo 78 ejemplos




¿Las demostraciones curadas con herramientas crean agentes de software más fuertes que amplias pilas de datos de instrucciones genéricas? Un equipo de investigadores de la Universidad de Shanghai Jiao Tong y el Laboratorio de Investigación Generativa de AI SII (GAIR) propone Limi (“menos es más para la agencia”), un método supervisado de ajuste fino que convierte un modelo base en un software/agente de investigación capaz utilizando 78 muestras. Limi obtiene un promedio del 73.5% en AgencyBench (FTFC 71.7, RC@3 74.2, SR@3 74.6), superando las líneas de base fuertes (GLM-4.5 45.1, QWEN3-235B-A22B 27.5, KIMI-K2 24.1, Deepseek-V3.1 11.9) e incluso de las variantes en el entrenamiento de los 10.000.000 de los 10.000.

https://arxiv.org/pdf/2509.17567

¿Qué es exactamente lo nuevo?

Principio de eficiencia de la agencia: Limi afirma que la competencia agente escala más con la calidad/estructura de los datos que el recuento de muestras sin procesar. El equipo de investigación Tune GLM-4.5/GLM-4.5-AIR en 78 trayectorias de uso de herramientas (muestras) e informa grandes ganancias en Agency Bench y Generalization Suites (Tau2 Bench, Evalpplus-He/MBPP, DS-1000, Scicode). Supervisión mínima pero densa. Cada trayectoria (~ 13k-152k tokens; ~ 42.4k avg.) Captura flujos de trabajo multi-giros completos: razonamiento de modelos, llamadas de herramientas y observaciones ambientales, coleccionadas en el entorno de ejecución de SII-cli. Las tareas abarcan la “codificación de ambientes” (desarrollo de software interactivo) y los flujos de trabajo de investigación (búsqueda, análisis, diseño de experimentos).

https://arxiv.org/pdf/2509.17567

¿Cómo funciona?

Modelos base: GLM-4.5 (355B) y GLM-4.5-AIR (106B). La capacitación utiliza el marco SFT de limo con configuraciones idénticas en las comparaciones (para aislar los efectos de datos). Construcción de datos: 60 consultas reales de profesionales + 18 sintetizados de GitHub PRS de alto estrellas (QA apretado por anotadores de doctorado). Para cada consulta, Limi registra la trayectoria del agente completo para completar con éxito dentro de SII-Cli. Evaluación: AgencyBench (r = 3 rondas) con FTFC, SR@3, RC@3; más suites de generalización (TAU2-Airline/Retail Pass^4, Evalpplus He/Mbpp, DS-1000, Scicode).

https://arxiv.org/pdf/2509.17567

Resultados

Agency Bench (AVG): 73.5%. Limi vs. GLM-4.5 (+28.4 pts); FTFC 71.7% vs 37.8%; SR@3 74.6% vs 47.4%. Eficiencia de datos: LIMI (78 muestras) supera a GLM-4.5 entrenado en SFT codeagente AFM (10,000 muestras): 73.5% frente a 47.8%-+53.7% absoluto con 128 × menos datos. GAPS similares mantienen vs AFM-Webagent (7,610) y CC-Bench-Traj (260). Generalización: a través del uso de herramientas/codificación/computación científica, Limi promedia ~ 57%, excediendo GLM-4.5 y otras líneas de base; Sin acceso a la herramienta, Limi todavía conduce ligeramente (50.0% frente a 48.7% para GLM-4.5), lo que indica ganancias intrínsecas más allá de las herramientas de entorno.

https://arxiv.org/pdf/2509.17567

Control de llave

La eficiencia de los datos domina la escala. Limi alcanza el promedio del 73.5% en Agency Bench utilizando trayectorias curadas, superando GLM-4.5 (45.1%) y que muestra una ventaja de +53.7 puntos sobre una línea de base SFT de 10k muestras, con 128 × menos muestras. Calidad de trayectoria, no a granel. Los datos de capacitación son flujos de trabajo de Horizon de larga duración en el desarrollo de software colaborativo y la investigación científica, recopilados a través de la pila de ejecución de SII-CLI a la referencia por el documento. Ganancias a través de metas. En Agency Bench, Limi informa FTFC 71.7%, SR@3 74.6%y RC@3 fuerte, con tablas detalladas que muestran grandes márgenes sobre las líneas de base; Las suites de generalización (TAU2, EvalPlus-He/MBPP, DS-1000, Scicode) promedian 57.2%. Funciona a través de las escalas. GLM-4.5 (355B) y GLM-4.5-AIR (106B) de Air (106b) produce grandes deltas sobre sus bases, lo que indica la robustez del método al tamaño del modelo.

El equipo de investigación entrena variantes GLM-4.5 con 78 trayectorias curadas de Horizon, con herramientas, capturadas en un entorno CLI que abarca la ingeniería de software y las tareas de investigación. Reporta el 73.5% promedio en Agency Bench con FTFC, RC@3 y SR@3 Métricas; La línea de base GLM-4.5 se informa al 45.1%. Una comparación con una línea de base SFT de 10,000 muestras de AFM-codeagente muestra 73.5% frente a 47.8%; La evaluación sin herramientas indica ganancias intrínsecas (≈50.0% para limi frente a 48.7% GLM-4.5). Las trayectorias son múltiples giros y densos en el token, enfatizando la planificación, la orquestación de herramientas y la verificación.

Consulte el papel, la página GitHub y la tarjeta modelo en HF. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🙌 Siga a MarkTechPost: agrégenos como una fuente preferida en Google.







Artículo anteriorStreamTensor: un compilador de pytorch-to accelerator que transmite intermedios LLM a través de flujos de datos FPGA