AWS presenta Swe-Polybench: un nuevo punto de referencia multilingüe de código abierto para evaluar los agentes de codificación de IA

Los avances recientes en modelos de idiomas grandes (LLM) han permitido el desarrollo de agentes de codificación basados ​​en IA que pueden generar, modificar y comprender el código de software. Sin embargo, la evaluación de estos sistemas sigue siendo limitada, a menudo limitada a los puntos de referencia sintéticos o con un alcance limitado, principalmente en Python. Estos puntos de referencia rara vez reflejan la diversidad estructural y semántica de las bases de código del mundo real, y como resultado, muchos agentes se sobrejuctos para los patrones específicos de los puntos de referencia en lugar de demostrar capacidades robustas y transferibles.

AWS presenta Swe-Polybench: un marco de evaluación más completo

Para abordar estos desafíos, AWS AI Labs ha introducido Swe-Polybenchun punto de referencia multilingüe a nivel de repositorio diseñado para la evaluación basada en la ejecución de agentes de codificación de IA. El punto de referencia abarca 21 repositorios de GitHub en cuatro lenguajes de programación ampliamente utilizados: Java, JavaScript, TypeScript y Python, compra 2,110 tareas que incluyen correcciones de errores, implementaciones de características e refactorizaciones de código.

A diferencia de los puntos de referencia anteriores, SWE-Polybench incorpora solicitudes de extracción real (PR) que cierran los problemas reales e incluyen casos de prueba asociados, lo que permite una evaluación verificable. Un subconjunto más pequeño y estratificado.Swe-Polybench500– También se ha lanzado para apoyar una experimentación más rápida al tiempo que preserva la diversidad de tareas y idiomas.

Estructura técnica y métricas de evaluación

SWE-Polybench adopta una tubería de evaluación basada en la ejecución. Cada tarea incluye una instantánea del repositorio y una declaración del problema derivada de un problema de GitHub. El sistema aplica el parche de verdad de tierra asociado en un entorno de prueba contenedorizado configurado para el ecosistema de lenguaje respectivo (por ejemplo, Maven para Java, NPM para JS/TS, etc.). El punto de referencia luego mide los resultados utilizando dos tipos de pruebas unitarias: Pasado de fusión (F2P) y pasar a paso (P2P).

Para proporcionar una evaluación más granular de los agentes de codificación, presenta Swe-Polybench Árbol de sintaxis de concreto (CST)-Métricas basadas en. Estos incluyen puntajes de recuperación a nivel de archivo y nivel de nodo, evaluando la capacidad del agente para ubicar y modificar secciones relevantes de la base de código. Estas métricas ofrecen información más allá de los resultados de pases binarios/falla, especialmente para modificaciones complejas de múltiples archivos.

Evaluación y observaciones empíricas

Tres agentes de codificación de código abierto:Portero, Agente de swey Sin agente—Bieron adaptado para Swe-Polybench. Todos usaron Claude 3.5 de Anthrope como el modelo subyacente y se modificaron para manejar los requisitos multilingües a nivel de repositorio del punto de referencia.

La evaluación reveló diferencias notables en el rendimiento entre idiomas y tipos de tareas. Por ejemplo, los agentes se desempeñaron mejor en las tareas de Python (hasta el 24.1% de la tasa de aprobación) pero tuvieron dificultades con TypeScript (tan bajo como 4.7%). Java, a pesar de su mayor complejidad en términos de cambios de nodo promedio, logró tasas de éxito más altas que el mecanografiado, lo que sugiere que la exposición previa al tratamiento previa y la familiaridad de la sintaxis juegan un papel crítico en el rendimiento del modelo.

El rendimiento también varió con la complejidad de la tarea. Las tareas limitadas a los cambios de una sola función o clase única produjeron tasas de éxito más altas (hasta 40%), mientras que aquellas que requieren cambios mixtos o de múltiples archivos vieron una caída significativa. Curiosamente, la alta precisión de recuperación y el recuerdo, particularmente para la identificación de archivos y del nodo CST, no siempre se tradujo en tasas de aprobación más altas, lo que indica que la localización del código es necesaria pero insuficiente para la resolución de problemas.

Conclusión: Hacia una evaluación robusta de agentes de codificación de IA

SWE-Polybench presenta un marco de evaluación robusto y matizado para los agentes de codificación, abordando las limitaciones clave en los puntos de referencia existentes. Al admitir múltiples lenguajes de programación, cubrir una gama más amplia de tipos de tareas e incorporar métricas conscientes de sintaxis, ofrece una evaluación más representativa de la aplicabilidad del mundo real de un agente.

El punto de referencia revela que, si bien los agentes de IA exhiben capacidades prometedoras, su rendimiento sigue siendo inconsistente en todos los idiomas y tareas. SWE-Polybench proporciona una base para futuras investigaciones destinadas a mejorar la generalización, la robustez y las capacidades de razonamiento de los asistentes de codificación de IA.


Mira el Blog de AWS DevOps, Cara abrazada-Swe-Polybench y Github-Swe-Polybench. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.