AI2 lanza SERA, agentes de codificación verificados por software creados con capacitación supervisada solo para flujos de trabajo prácticos de automatización a nivel de repositorio

Los investigadores del Allen Institute for AI (AI2) presentan SERA, Soft Verified Efficient Repository Agents, como una familia de agentes de codificación que tiene como objetivo igualar sistemas cerrados mucho más grandes utilizando solo entrenamiento supervisado y trayectorias sintéticas.

¿Qué es SERA?

SERA es el primer lanzamiento de la serie Open Coding Agents de AI2. El modelo insignia, SERA-32B, se basa en la arquitectura Qwen 3 32B y está capacitado como agente de codificación a nivel de repositorio.

En el banco SWE verificado en un contexto de 32K, SERA-32B alcanza una tasa de resolución del 49,5 por ciento. En el contexto de 64K alcanza el 54,2 por ciento. Estos números lo colocan en la misma banda de rendimiento que los sistemas de peso abierto como Devstral-Small-2 con parámetros de 24B y GLM-4.5 Air con parámetros de 110B, mientras que SERA permanece completamente abierto en código, datos y pesos.

La serie incluye cuatro modelos actuales: SERA-8B, SERA-8B GA, SERA-32B y SERA-32B GA. Todos se publican en Hugging Face bajo una licencia Apache 2.0.

Generación verificada suave

El proceso de formación se basa en Soft Verified Generation, SVG. SVG produce trayectorias de agentes que parecen flujos de trabajo de desarrollador realistas y luego utiliza el acuerdo de parche entre dos implementaciones como una señal suave de corrección.

El proceso es:

Primera implementación: se muestra una función de un repositorio real. El modelo de profesor, GLM-4.6 en la configuración SERA-32B, recibe un estilo de error o una descripción de cambio y opera con herramientas para ver archivos, editar código y ejecutar comandos. Produce una trayectoria T1 y un parche P1. Solicitud de extracción sintética: el sistema convierte la trayectoria en una solicitud de extracción similar a una descripción. Este texto resume la intención y las ediciones clave en un formato similar a las solicitudes de extracción reales. Segunda implementación: el profesor comienza nuevamente desde el repositorio original, pero ahora solo ve la descripción de la solicitud de extracción y las herramientas. Produce una nueva trayectoria T2 y un parche P2 que intenta implementar el cambio descrito. Verificación suave: los parches P1 y P2 se comparan línea por línea. Una puntuación de recuperación r se calcula como la fracción de líneas modificadas en P1 que aparecen en P2. Cuando r es igual a 1, la trayectoria se verifica de forma estricta. Para valores intermedios, la muestra se verifica suavemente.

El resultado clave del estudio de ablación es que no se requiere una verificación estricta. Cuando los modelos se entrenan en trayectorias T2 con diferentes umbrales en r, incluso r es igual a 0, el rendimiento en SWE bench Verified es similar con un recuento de muestra fijo. Esto sugiere que las trazas realistas de varios pasos, incluso si son ruidosas, son una supervisión valiosa para los agentes codificadores.

https://allenai.org/blog/open-coding-agents

Escala de datos, capacitación y costo

SVG se aplica a 121 repositorios de Python derivados del corpus SWE-smith. En las ejecuciones de profesores de GLM-4.5 Air y GLM-4.6, los conjuntos de datos completos de SERA contienen más de 200.000 trayectorias de ambas implementaciones, lo que lo convierte en uno de los conjuntos de datos de agentes de codificación abiertos más grandes.

SERA-32B está entrenado en un subconjunto de 25.000 trayectorias T2 del conjunto de datos Sera-4.6-Lite T2. El entrenamiento utiliza un ajuste fino supervisado estándar con Axolotl en Qwen-3-32B durante 3 épocas, tasa de aprendizaje 1e-5, caída de peso 0,01 y longitud máxima de secuencia de 32.768 tokens.

Muchas trayectorias son más largas que el límite del contexto. El equipo de investigación define una tasa de truncamiento, la fracción de pasos que caben en tokens de 32K. Luego prefieren trayectorias que ya encajan y, para el resto, seleccionan sectores con una alta tasa de truncamiento. Esta estrategia de truncamiento ordenado supera claramente al truncamiento aleatorio cuando se comparan las puntuaciones verificadas del banco SWE.

El presupuesto informático informado para SERA-32B, incluida la generación de datos y la capacitación, es de aproximadamente 40 días de GPU. Utilizando una ley de escala sobre el tamaño y el rendimiento del conjunto de datos, el equipo de investigación estimó que el enfoque SVG es alrededor de 26 veces más barato que los sistemas basados ​​en aprendizaje por refuerzo como SkyRL-Agent y 57 veces más barato que los canales de datos sintéticos anteriores como SWE-smith para alcanzar puntuaciones similares en SWE-bench.

https://allenai.org/blog/open-coding-agents

Especialización en repositorios

Un caso de uso central es adaptar un agente a un repositorio específico. El equipo de investigación estudia esto en tres proyectos principales verificados por SWE-bench, Django, SymPy y Sphinx.

Para cada repositorio, SVG genera del orden de 46.000 a 54.000 trayectorias. Debido a los límites de computación, los experimentos de especialización se entrenan en 8000 trayectorias por repositorio, mezclando 3000 trayectorias T2 verificadas suavemente con 5000 trayectorias T1 filtradas.

En el contexto de 32K, estos estudiantes especializados igualan o superan ligeramente al profesor GLM-4.5-Air y también se comparan bien con Devstral-Small-2 en esos subconjuntos de repositorio. Para Django, un estudiante especializado alcanza una tasa de resolución del 52,23 por ciento frente al 51,20 por ciento para GLM-4.5-Air. Para SymPy, el modelo especializado alcanza el 51,11 por ciento frente al 48,89 por ciento del GLM-4.5-Air.

Conclusiones clave

SERA convierte los agentes de codificación en un problema de aprendizaje supervisado: SERA-32B se entrena con un ajuste fino supervisado estándar en trayectorias sintéticas de GLM-4.6, sin bucle de aprendizaje de refuerzo y sin dependencia de conjuntos de pruebas del repositorio. Soft Verified Generation elimina la necesidad de pruebas: SVG utiliza dos implementaciones y superposición de parches entre P1 y P2 para calcular una puntuación de verificación suave, y el equipo de investigación muestra que incluso las trayectorias no verificadas o débilmente verificadas pueden entrenar agentes de codificación efectivos. Conjunto de datos de agentes grande y realista a partir de repositorios reales: el canal aplica SVG a 121 proyectos Python del corpus SWE Smith, produciendo más de 200.000 trayectorias y creando uno de los conjuntos de datos abiertos más grandes para agentes de codificación. Capacitación eficiente con análisis explícito de costos y escala: SERA-32B entrena en 25,000 trayectorias T2 y el estudio de escala muestra que SVG es aproximadamente 26 veces más barato que SkyRL-Agent y 57 veces más barato que SWE-smith con un rendimiento verificado en banco SWE similar.

Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.