Operai presenta Swe-Lancer: un punto de referencia para evaluar el rendimiento del modelo en el trabajo de ingeniería de software independiente del mundo real

Abordar los desafíos en evolución en la ingeniería de software comienza a reconocer que los puntos de referencia tradicionales a menudo se quedan cortos. La ingeniería de software independiente del mundo real es compleja, lo que implica mucho más que tareas de codificación aisladas. Los ingenieros independientes trabajan en bases de código enteras, integran diversos sistemas y gestionan los intrincados requisitos del cliente. Los métodos de evaluación convencionales, que generalmente enfatizan las pruebas unitarias, pierden aspectos críticos como el rendimiento de la pila completa y el impacto monetario real de las soluciones. Esta brecha entre las pruebas sintéticas y la aplicación práctica ha impulsado la necesidad de métodos de evaluación más realistas.

Operai presenta Swe-Lancer, un punto de referencia para evaluar el rendimiento del modelo en el trabajo de ingeniería de software independiente del mundo real. El punto de referencia se basa en más de 1,400 tareas independientes procedentes de Upwork y el repositorio de gastos, con un pago total de $ 1 millón de USD. Las tareas van desde correcciones de errores menores hasta implementaciones de características principales. Swe-Lancer está diseñado para evaluar los parches de código individuales y las decisiones gerenciales, donde se requieren modelos para seleccionar la mejor propuesta de múltiples opciones. Este enfoque refleja mejor los roles duales encontrados en equipos de ingeniería reales.

Una de las fortalezas clave de Swe-Lancer es su uso de pruebas de extremo a extremo en lugar de pruebas unitarias aisladas. Estas pruebas están cuidadosamente elaboradas y verificadas por ingenieros de software profesionales. Simulan todo el flujo de trabajo del usuario, desde la identificación y depuración del problema hasta la verificación de parches. Al usar una imagen de Docker unificada para la evaluación, el punto de referencia asegura que cada modelo se pruebe en las mismas condiciones controladas. Este riguroso marco de prueba ayuda a revelar si la solución de un modelo sería lo suficientemente robusta para la implementación práctica.

Los detalles técnicos de Swe-Lancer están cuidadosamente diseñados para reflejar las realidades del trabajo independiente. Las tareas requieren modificaciones en múltiples archivos e integraciones con API, y abarcan plataformas móviles y web. Además de producir parches de código, los modelos tienen el desafío de revisar y seleccionar entre propuestas competidoras. Este doble enfoque en habilidades técnicas y gerenciales refleja las verdaderas responsabilidades de los ingenieros de software. La inclusión de una herramienta de usuario que simula las interacciones reales del usuario mejora aún más la evaluación al alentar la depuración y el ajuste iterativo.

Los resultados de SWE-Lancer ofrecen información valiosa sobre las capacidades actuales de los modelos de idiomas en ingeniería de software. En las tareas de contribuyentes individuales, modelos como GPT-4O y Claude 3.5 Sonnet lograron tasas de aprobación de 8.0% y 26.2%, respectivamente. En tareas gerenciales, el mejor modelo alcanzó una tasa de aprobación del 44.9%. Estos números sugieren que, si bien los modelos de última generación pueden ofrecer soluciones prometedoras, todavía hay margen considerable para mejorar. Experimentos adicionales indican que permitir más intentos o aumentar el cálculo de tiempo de prueba puede mejorar significativamente el rendimiento, particularmente en tareas más desafiantes.

En conclusión, Swe-Lancer presenta un enfoque reflexivo y realista para evaluar la IA en la ingeniería de software. Al vincular directamente el rendimiento del modelo con un valor monetario real y enfatizar los desafíos de pila completa, el punto de referencia proporciona una imagen más precisa de las capacidades prácticas de un modelo. Este trabajo fomenta un alejamiento de las métricas de evaluación sintética hacia las evaluaciones que reflejan las realidades económicas y técnicas del trabajo independiente. A medida que el campo continúa evolucionando, Swe-Lancer sirve como una herramienta valiosa para investigadores y profesionales, ofreciendo ideas claras tanto sobre las limitaciones actuales como para las posibles vías de mejora. En última instancia, este punto de referencia ayuda a allanar el camino para una integración más segura y efectiva de IA en el proceso de ingeniería de software.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.