El rendimiento de SWE-Bench alcanza el 50.8% sin uso de la herramienta: un caso para agentes de contexto de estado monolítico

Los avances recientes en los agentes de LM han mostrado un potencial prometedor para automatizar las intrincadas tareas del mundo real. Estos agentes generalmente operan proponiendo y ejecutando acciones a través de API, que respalda aplicaciones como ingeniería de software, robótica y experimentación científica. A medida que estas tareas se vuelven más complejas, los marcos de agentes LM han evolucionado para incluir múltiples agentes, recuperación de varios pasos y andamios a medida para optimizar el rendimiento. Un desafío central radica en explorar y comprender efectivamente el entorno, lo que ha provocado el desarrollo de andamios de ingeniería utilizando herramientas, mecanismos de memoria y tuberías personalizadas. Sin embargo, la mayoría de los métodos existentes asumen la observabilidad parcial, lo que requiere que los agentes recolecten observaciones de forma incremental. Si bien esta suposición se mantiene en entornos dinámicos o desconocidos, es menos aplicable en entornos totalmente observables como SWE-Bench, donde se puede acceder a toda la información relevante desde el inicio.

En ingeniería de software, la investigación sobre los agentes de LM se ha centrado en dos estrategias principales: marcos basados en agentes y tuberías estructuradas. Los sistemas basados en agentes, como el agente SWE y OpenHands CodeAct, permiten que LMS interactúe de forma autónoma con bases de código, a menudo a través de interfaces y herramientas de recuperación personalizadas. Otros modelos como Moatless y AutoCoderover mejoran la localización a través de las técnicas de búsqueda, mientras que Specrover refina el diseño de andamios. Alternativamente, las tuberías estructuradas, como sin agente y codemonkey, describen tareas en fases secuenciales como localización, reparación y validación. Si bien estos enfoques dependen de los componentes de ingeniería para el rendimiento, el estudio actual propone aprovechar LMS de contexto largo (LCLM) para interpretar directamente todo el entorno de tareas. Los avances en la arquitectura e infraestructura de LCLM ahora permiten que estos modelos superen los sistemas acuáticos de recuperación en muchos contextos, lo que reduce la dependencia del andamio externo complejo.

Investigadores de Stanford, IBM y la Universidad de Toronto exploraron si el andamio complejo es necesario para los agentes de LM que abordan tareas como SWE-Bench. Muestran que simplemente usar LCLM, como Gemini-1.5-Pro, con una solicitud adecuada y sin andamios, puede lograr un rendimiento competitivo, lo que alcanza el 38% en SWE-Bench-Verificado. Gemini-2.5-Pro, usando la misma configuración simple, alcanza el 50.8%. Su trabajo sugiere que muchos diseños de agente complejos podrían reemplazarse con un solo poderoso LCLM, simplificando la arquitectura y la capacitación. Además, un enfoque híbrido de dos etapas con Gemini-1.5-Pro y Claude-3.7 logra una tasa de resolución del 48.6%, lo que respalda aún más esta dirección simplificada.

Los agentes tradicionales de LM dependen de la exploración interactiva debido a la observabilidad parcial, pero muchas tareas, como la depuración de software, permiten la observabilidad completa. El estudio propone agentes de estado en contexto que aprovechan los LCLM para procesar directamente los estados de entorno completos o comprimidos, sin pasar por la necesidad de andamios agentes complejos. Para grandes bases de código, una compresión basada en la clasificación selecciona archivos relevantes para que se ajusten dentro de los límites de contexto. Se introducen dos métodos: DirectSolve, donde los LCLM resuelven tareas utilizando el contexto completo; y SelectSolve, donde LCLMS localice los archivos relevantes para que resuelva LMS de contexto corto (SCLMS). Ambos usan formatos de parche dirigidos y validación para garantizar la precisión y reducir la alucinación.

Los experimentos evalúan un marco de agente simplificado utilizando LLM en el punto de referencia verificado SWE-Bench, que incluye 500 tareas de ingeniería de software del mundo real. Los métodos propuestos, DirectSolve y SelectSolve, utilizan LCLM como Gemini-1.5-Pro y Gemini-2.5-Pro, y en SelectSolve, un SCLM adicional (Claude-3.7-Sonnet) para la generación de parches. Los resultados muestran que la presencia directa supera los enfoques de agente complejos como el sin agente y el código de codificación con una ingeniería mínima. SelectSolve mejora aún más la precisión al aprovechar modelos más fuertes para parches. Los estudios de ablación destacan la importancia de la provisión de cuna, la reaplace del código y el diseño de contexto de token-eficiente. Además, el posicionamiento de archivos relevantes al comienzo de la solicitud mejora el rendimiento, subrayando las limitaciones en el procesamiento de contexto largo.

En conclusión, el costo del uso de métodos basados en LCLM es actualmente más alto que los enfoques existentes como el sin agente y CodeAct, promediando $ 2.60 por instancia en comparación con $ 0.25 y $ 0.87, respectivamente. Sin embargo, las caídas rápidas en los costos de inferencia y el aumento de las longitudes de contexto hacen que los LCLM sean más prácticos. Las técnicas como el almacenamiento en caché de KV disminuyen significativamente los costos después de las ejecuciones iniciales, lo que lo reduce a aproximadamente $ 0.725. Aunque los cambios ligeros de base de código aún limitan los beneficios de almacenamiento en caché, las mejoras adicionales podrían ayudar. El estudio también sugiere que los LCLM pueden manejar largas historias de interacción, reduciendo la necesidad de memoria y mecanismos de recuperación complejos. En particular, los modelos LCLM sin problemas pueden funcionar de manera competitiva en las tareas SWE-Bench.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🚨 Construye Genai en el que puedas confiar. ⭐️ Parlant es su motor de código abierto para conversaciones de IA controladas, cumplidas y con propósito: ¡Star Parlant en GitHub! (Promocionado)

El rendimiento de SWE-Bench alcanza el 50.8% sin uso de la herramienta: un caso para agentes de contexto de estado monolítico

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mistral AI lanza agentes remotos en Vibe y Mistral Medium 3.5 con una puntuación verificada por SWE-Bench del 77,6%

Cree un flujo de trabajo de IA con múltiples agentes para modelado de redes biológicas, interacciones de proteínas, metabolismo y simulación de señalización celular

Cómo un algoritmo de cuantificación de 2021 supera silenciosamente a su sucesor de 2026

You missed

Disputa de Maro Vega – Noticias del Diario Costa Tropical

Vea la alfombra roja de la Met Gala 2006: Gisele Bündchen, Victoria Beckham

Los críticos con Sánchez rechazan reabrir el debate del “pucherazo” del 1 de octubre: “Nadie dentro va a remover ese avispero”

Zenia Boulevard celebra el Día del Orgullo Geek con cosplay, desfile y actividades temáticas – The Leader