Los agentes de IA son cada vez más vitales para ayudar a los ingenieros a manejar eficientemente tareas de codificación compleja. Sin embargo, un desafío significativo ha sido evaluar y garantizar con precisión que estos agentes puedan manejar escenarios de codificación del mundo real más allá de las pruebas de referencia simplificadas.
El código de aumento ha anunciado el lanzamiento de su Aumento del agente verificado de Swe-Benchun desarrollo en AI AI de Agente adaptado específicamente para la ingeniería de software. Este lanzamiento los coloca en la parte superior del rendimiento del agente de código abierto en la tabla de clasificación SWE-Bench. Al combinar las fortalezas de Claude Sonnet 3.7 3.7 de Anthrope y el modelo O1 de OpenAI, el enfoque de Augment Code ha ofrecido resultados impresionantes, mostrando una combinación convincente de innovación y arquitectura del sistema pragmático.
El punto de referencia SWE-Bench es una prueba rigurosa que mide la efectividad de un agente de IA en el manejo de tareas prácticas de ingeniería de software dibujadas directamente de temas de GitHub en destacados repositorios de código abierto. A diferencia de los puntos de referencia de codificación tradicionales, que generalmente se centran en problemas aislados de estilo algorítmico, SWE-Bench ofrece un banco de pruebas más realista que requiere que los agentes navegen por las bases de código existentes, identifiquen las pruebas relevantes de forma autónoma, creen scripts e iterate contra los suites de prueba de regresión integrales.
La presentación inicial del código de aumento ha alcanzado una tasa de éxito del 65.4%, un logro notable en este entorno exigente. La compañía centró su primer esfuerzo en aprovechar los modelos de vanguardia existentes, específicamente el Claude Sonnet 3.7 de Anthrope como el principal impulsor para la ejecución de tareas y el modelo O1 de OpenAI para el conjunto. Este enfoque evitó estratégicamente los modelos propietarios de capacitación en esta fase inicial, estableciendo una línea de base robusta.
Un aspecto interesante de la metodología de Augment fue su exploración en diferentes comportamientos y estrategias de agentes. Por ejemplo, descubrieron que ciertas técnicas beneficiosas esperadas como el “modo de pensamiento” de Claude Sonnet y los agentes de fijación de regresión separados no producían mejoras de rendimiento significativas. Esto resalta la dinámica matizada y a veces contradictoria en la optimización del rendimiento del agente. Además, se exploraron técnicas básicas de conjunto, como la votación mayoritaria, pero finalmente se abandonaron debido a las consideraciones de costo y eficiencia. Sin embargo, el conjunto simple con el O1 de OpenAI proporcionó mejoras incrementales en la precisión, subrayando el valor de los conjuntos incluso en escenarios restringidos.
Si bien el éxito inicial de la presentación de Bench Swe Bench es encomiable, la compañía es transparente sobre las limitaciones del punto de referencia. En particular, los problemas de SWE-Bench están muy sesgados hacia la corrección de errores en lugar de la creación de características, las descripciones proporcionadas son más estructuradas y amigables con LLM en comparación con las indicaciones típicas del desarrollador del mundo real, y el punto de referencia utiliza únicamente Python. Las complejidades del mundo real, como navegar en masas bases de código de producción y tratar con lenguajes de programación menos descriptivos, plantean desafíos que SWE-Bench no captura.
El código de aumento ha reconocido abiertamente estas limitaciones, enfatizando su compromiso continuo de optimizar el rendimiento del agente más allá de las métricas de referencia. Hagan hincapié en que, si bien las mejoras en las indicaciones y el conjunto pueden aumentar los resultados cuantitativos, la retroalimentación cualitativa de los clientes y la usabilidad del mundo real siguen siendo sus prioridades. El objetivo final para el código de aumento es desarrollar agentes rentables y rápidos capaces de proporcionar asistencia de codificación incomparable en entornos profesionales prácticos.
Como parte de su futura hoja de ruta, Augment está explorando activamente el ajuste de los modelos patentados utilizando técnicas RL y datos patentados. Dichos avances prometen mejorar la precisión del modelo y reducir significativamente los costos de latencia y operación, facilitando la asistencia de codificación de IA más accesible y escalable.
Algunas de las conclusiones clave del agente verificado de Bench Augment SWE incluyen:
- Aument Code lanzó el agente verificado de Augment SWE-Bench, logrando el primer lugar entre los agentes de código abierto.
- El agente combina Claude Sonnet 3.7 de Anthrope como su controlador central y el modelo O1 de OpenAI para el conjunto.
- Logró una tasa de éxito del 65.4% en el banco SWE, destacando las capacidades de referencia robustas.
- Se encontraron resultados contraintuitivos, donde las características beneficiosas anticipadas como el ‘modo de pensamiento’ y los agentes de fijación de regresión separados no ofrecían ganancias de rendimiento sustanciales.
- La rentabilidad identificada como una barrera crítica para implementar un conjunto extenso en escenarios del mundo real.
- Limitaciones de referencia reconocidas, incluido su sesgo hacia Python y tareas de fijación de errores a menor escala.
- Las mejoras futuras se centrarán en la reducción de costos, la menor latencia y la mejor usabilidad a través del aprendizaje de refuerzo y los modelos patentados ajustados.
- Destacó la importancia de equilibrar mejoras basadas en referencia con mejoras cualitativas centradas en el usuario.
Verificar el Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.