Los investigadores de Tiktok introducen SWE-Perf: el primer punto de referencia para la optimización del rendimiento del código de nivel de repositorio

Introducción

A medida que avanzan los modelos de lenguaje grande (LLMS) en tareas de ingeniería de software, que se extienden desde la generación de códigos hasta la corrección de errores, la optimización de rendimiento sigue siendo una frontera evasiva, especialmente a nivel de repositorio. Para cerrar esta brecha, los investigadores de Tiktok y las instituciones colaboradoras han introducido Swe-perf—El primer punto de referencia diseñado específicamente para evaluar la capacidad de LLM para optimizar el rendimiento del código en los repositorios del mundo real.

A diferencia de los puntos de referencia anteriores centrados en la corrección o la eficiencia a nivel de función (p. Ej., Swe-Bench, Mercury, Effibench), SWE-Perf captura la complejidad y la profundidad contextual de la sintonización de rendimiento a escala de repositorio. Proporciona una base cuantitativa reproducible para estudiar y mejorar las capacidades de optimización del rendimiento de los LLM modernos.

Fuente de la imagen: https://arxiv.org/abs/2507.12415

Por qué se necesita Swe-Perf

Las bases de código del mundo real son a menudo grandes, modulares e intrincadamente interdependientes. Optimizarlos para el rendimiento requiere la comprensión de las interacciones de archivo cruzado, las rutas de ejecución y los cuellos de botella computacionales: los servicios más allá del alcance de los conjuntos de datos a nivel de función aislada.

Los LLM de hoy se evalúan en gran medida en tareas como la corrección de sintaxis o las transformaciones de funciones pequeñas. Pero en los entornos de producción, el ajuste del rendimiento entre los repositorios puede generar beneficios más sustanciales en todo el sistema. SWE-Perf se construye explícitamente para medir las capacidades de LLM en tales configuraciones.

Fuente de la imagen: https://arxiv.org/abs/2507.12415

Construcción del conjunto de datos

SWE-Perf se construye a partir de más de 100,000 solicitudes de extracción en repositorios de GitHub de alto perfil. El conjunto de datos final cubrió 9 repositorios que incluyen:

140 instancias curadas demostrando mejoras de rendimiento medibles y estables.
Basas de código completas pre y después de la optimización.
Funciones objetivo categorizado como Oracle (a nivel de archivo) o realista (nivel de repositorio).
Pruebas unitarias y entornos de Docker para la ejecución reproducible y la medición del rendimiento.
Patches autorizados por expertos utilizado como estándares de oro.

Para garantizar la validez, cada prueba unitaria debe:

Pase antes y después del parche.
Mostrar ganancias de tiempo de ejecución estadísticamente significativas en más de 20 repeticiones (prueba U de Mann-Whitney, p <0.1).

El rendimiento se mide mediante ganancia mínima de rendimiento (δ), aislando mejoras estadísticas atribuibles al parche mientras filtra el ruido.

Configuración de referencia: Oracle vs. Realistic

Configuración de oráculo: El modelo recibe solo las funciones de destino y los archivos correspondientes. Esta configuración prueba las habilidades de optimización localizadas.
Configuración realista: El modelo recibe un repositorio completo y debe identificar y optimizar las rutas críticas de rendimiento de forma autónoma. Este es un análogo más cercano para cómo funcionan los ingenieros humanos.

Métricas de evaluación

SWE-Perf define un marco de evaluación de tres niveles, informando cada métrica de forma independiente:

Aplicar: ¿Se puede aplicar limpiamente el parche generado por el modelo?
Exactitud: ¿La integridad funcional de la conservación del parche (todas las pruebas unitarias pasan)?
Actuación: ¿El parche produce una mejora de tiempo de ejecución medible?

Las métricas no se agregan en una sola puntuación, lo que permite una evaluación más matizada de las compensaciones entre la corrección sintáctica y las ganancias de rendimiento.

Resultados experimentales

El punto de referencia evalúa varios LLM de nivel superior en la configuración de Oracle y realista:

Modelo	Configuración	Actuación (%)
Claude-4-opus	Oráculo	1.28
GPT-4O	Oráculo	0.60
Gemini-2.5-pro	Oráculo	1.48
Claude-3.7 (sin agente)	Realista	0.41
Claude-3.7 (OpenHands)	Realista	2.26
Experto (parche humano)	–	10.85

En particular, incluso las configuraciones de LLM de mejor rendimiento están significativamente debajo del rendimiento a nivel humano. El método basado en agentes OpenHands, basado en Claude-3.7-Sonnet, supera a otras configuraciones en la configuración realista, pero aún se queda atrás de las optimizaciones hechas de expertos.

Observaciones clave

Marcos basados en agentes como OpenHands son más adecuados para la optimización compleja de varios pasos, superan las indicaciones del modelo directo y los enfoques basados en la tubería como el sin agente.
El rendimiento se degrada A medida que aumenta el número de funciones objetivo: los LLM luchan con alcances de optimización más amplios.
LLMS exhiben escalabilidad limitada En escenarios de larga duración, donde los sistemas expertos continúan mostrando ganancias de rendimiento.
Análisis de parches Muestra el enfoque de LLM más en estructuras de código de bajo nivel (por ejemplo, importaciones, configuración del entorno), mientras que los expertos se dirigen a abstracciones semánticas de alto nivel para el ajuste del rendimiento.

Conclusión

SWE-Perf representa un paso fundamental para medir y mejorar las capacidades de optimización del rendimiento de los LLM en flujos de trabajo de ingeniería de software realistas. Descubre una brecha de capacidad significativa entre los modelos existentes y los expertos humanos, que ofrece una base sólida para futuras investigaciones en el ajuste de rendimiento a escala de repositorio. A medida que los LLM evolucionan, SWE-Perf puede servir como una estrella del norte que los guía hacia la mejora práctica de software lista para la producción a escala.

Mira el Papel, Página de Github y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Oportunidad de patrocinio: Llegue a los desarrolladores de IA más influyentes en Estados Unidos y Europa. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Los investigadores de Tiktok introducen SWE-Perf: el primer punto de referencia para la optimización del rendimiento del código de nivel de repositorio

ByEquipo de 7 minutos

Introducción

Por qué se necesita Swe-Perf

Construcción del conjunto de datos

Configuración de referencia: Oracle vs. Realistic

Métricas de evaluación

Resultados experimentales

Observaciones clave

Conclusión

By Equipo de 7 minutos

Related Post

Una guía de codificación sobre capacitación posterior a LLM con TRL desde el ajuste fino supervisado hasta el razonamiento DPO y GRPO

Cómo ser contratado en la era de la IA

Beacon Biosignals está mapeando el cerebro durante el sueño | Noticias del MIT

You missed

Ver precios, fecha de preventa y todas las actualizaciones – Hollywood Life

Un cohete propulsor de SpaceX podría estar en camino de llegar a la luna en agosto

“No se puede quedar nadie en casa”

Lo que nos dice la supervivencia entre neandertales y homo sapiens