Un equipo de investigadores asociados con Amazon ha lanzado A-Evolve, una infraestructura universal diseñada para automatizar el desarrollo de agentes autónomos de IA. El marco tiene como objetivo reemplazar la “ingeniería de arnés manual” que actualmente define el desarrollo de agentes con un proceso de evolución sistemático y automatizado.
El proyecto se describe como un posible “momento PyTorch” para la IA agente. Así como PyTorch alejó el aprendizaje profundo de los cálculos de gradiente manuales, A-Evolve busca alejar el diseño de agentes de las indicaciones ajustadas manualmente y acercarlo a un marco escalable donde los agentes mejoran su propio código y lógica a través de ciclos iterativos.
El problema: el cuello de botella del ajuste manual
En los flujos de trabajo actuales, los ingenieros de software e inteligencia artificial que crean agentes autónomos a menudo se encuentran en un ciclo de prueba y error manual. Cuando un agente falla en una tarea, como resolver un problema de GitHub en SWE-bench, el desarrollador debe inspeccionar manualmente los registros, identificar la falla lógica y luego reescribir el mensaje o agregar una nueva herramienta.
A-Evolve está diseñado para automatizar este ciclo. La premisa central del marco es que un agente puede ser tratado como una colección de artefactos mutables que evolucionan en función de la retroalimentación estructurada de su entorno. Esto puede transformar un agente “semilla” básico en uno de alto rendimiento con “cero intervención humana”, un objetivo que se logra al delegar el proceso de ajuste a un motor automatizado.
La arquitectura: el espacio de trabajo del agente y el manifiesto
A-Evolve introduce una estructura de directorio estandarizada llamada Agent Workspace. Este espacio de trabajo define el ‘ADN’ del agente a través de cinco componentes críticos:
manifest.yaml: el archivo de configuración central que define los metadatos, los puntos de entrada y los parámetros operativos del agente. indicaciones/: Los mensajes del sistema y la lógica de instrucción que guían el razonamiento del LLM. skills/: Fragmentos de código reutilizables o funciones discretas que el agente puede aprender a ejecutar. herramientas/: Configuraciones para interfaces externas y API. memoria/: Datos episódicos y contexto histórico utilizados para informar acciones futuras.
El motor de mutación opera directamente sobre estos archivos. En lugar de simplemente cambiar un mensaje en la memoria, el motor modifica el código real y los archivos de configuración dentro del espacio de trabajo para mejorar el rendimiento.
El ciclo de evolución de cinco etapas
La precisión del marco radica en su lógica interna, que sigue un ciclo estructurado de cinco etapas para garantizar que las mejoras sean efectivas y estables:
Resolver: el agente intenta completar tareas dentro del entorno de destino (BYOE). Observe: el sistema genera registros estructurados y captura comentarios de referencia. Evolucionar: Mutation Engine analiza las observaciones para identificar puntos de falla y modifica los archivos en el espacio de trabajo del agente. Puerta: el sistema valida la nueva mutación frente a un conjunto de funciones de aptitud para garantizar que no provoque regresiones. Recargar: el agente se reinicializa con el espacio de trabajo actualizado y el ciclo comienza nuevamente.
Para garantizar la reproducibilidad, A-Evolve se integra con Git. Cada mutación se etiqueta automáticamente con git (por ejemplo, evo-1, evo-2). Si una mutación falla en la etapa ‘Gate’ o muestra un rendimiento deficiente en el siguiente ciclo, el sistema puede retroceder automáticamente a la última versión estable.
Modularidad ‘Traiga lo suyo’ (BYO)
A-Evolve está diseñado como un marco modular en lugar de un modelo de agente específico. Esto permite a los profesionales de la IA intercambiar componentes según sus necesidades específicas:
Traiga su propio agente (BYOA): soporte para cualquier arquitectura, desde bucles ReAct básicos hasta sistemas complejos de múltiples agentes. Traiga su propio entorno (BYOE): compatibilidad con diversos dominios, incluidos entornos limitados de ingeniería de software o entornos CLI basados en la nube. Bring Your Own Algorithm (BYO-Algo): Flexibilidad para utilizar diferentes estrategias de evolución, como la mutación impulsada por LLM o el aprendizaje por refuerzo (RL).
Rendimiento de referencia
El equipo de A-EVO-Lab ha probado el marco utilizando un modelo básico de la serie Claude en varios puntos de referencia rigurosos. Los resultados muestran que la evolución automatizada puede impulsar a los agentes hacia un rendimiento de primer nivel:
MCP-Atlas: alcanzó el 79,4% (n.° 1), un aumento de +3,4 pp. Este punto de referencia evalúa específicamente las capacidades de llamada de herramientas utilizando el Protocolo de contexto modelo (MCP) en múltiples servidores. SWE-bench Verified: logró un 76,8 % (~#5), una mejora de +2,6 pp en la resolución de errores de software del mundo real. Terminal-Bench 2.0: alcanzó el 76,5 % (~#7), lo que representa un aumento de +13,0 pp en el dominio de la línea de comandos dentro de entornos Dockerizados. SkillsBench: alcanzó el 34,9 % (n.º 2), una ganancia de +15,2 pp en el descubrimiento autónomo de habilidades.
En la prueba MCP-Atlas, el sistema desarrolló un mensaje genérico de 20 líneas sin habilidades iniciales en un agente con cinco habilidades específicas de nueva creación que le permitieron alcanzar la cima de la clasificación.
Implementación
A-Evolve está diseñado para integrarse en los flujos de trabajo de Python existentes. Usted proporciona un Agente Base. A-Evolve devuelve un agente SOTA. 3 líneas de código. 0 horas de ingeniería de arneses manual. Una infraestructura, cualquier dominio, cualquier algoritmo de evolución. El siguiente fragmento ilustra cómo inicializar el proceso de evolución:
Conclusiones clave
Del ajuste manual al automatizado: A-Evolve cambia el paradigma de desarrollo de la ‘ingeniería de arnés manual’ (indicaciones y herramientas de ajuste manual) a un proceso de evolución automatizado, lo que permite a los agentes automejorar su propia lógica y código. El estándar ‘Agent Workspace’: el marco trata a los agentes como un directorio estandarizado que contiene cinco componentes principales (manifest.yaml, indicaciones, habilidades, herramientas y memoria) que proporcionan una interfaz limpia basada en archivos para que Mutation Engine pueda modificar. Evolución de bucle cerrado con Git: A-Evolve utiliza un bucle de cinco etapas (Resolver, Observar, Evolucionar, Gate, Recargar) para garantizar mejoras estables. Cada mutación está etiquetada con git (por ejemplo, evo-1), lo que permite una reproducibilidad total y reversiones automáticas si una mutación retrocede. Infraestructura independiente “Traiga su propia”: el marco es altamente modular y admite BYOA (Agente), BYOE (Medio ambiente) y BYO-Algo (Algoritmo). Esto permite a los desarrolladores utilizar cualquier modelo o estrategia de evolución en cualquier dominio especializado. Ganancias SOTA comprobadas: la infraestructura ya ha demostrado un rendimiento de vanguardia, impulsando a los agentes al puesto número 1 en MCP-Atlas (79,4%) y a altas clasificaciones en SWE-bench Verified (~#5) y Terminal-Bench 2.0 (~#7) sin intervención manual.
Consulte el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.