Ingeniería de contexto agente (ACE): LLM de mejora personal a través de contextos en evolución, sin ajustes

TL;DR: Un equipo de investigadores de la Universidad de Stanford, SambaNova Systems y UC Berkeley presentan el marco ACE que mejora el rendimiento de LLM al editar y hacer crecer el contexto de entrada en lugar de actualizar los pesos del modelo. El contexto se trata como un “libro de estrategias” vivo mantenido por tres roles (Generador, Reflector, Curador) con pequeños elementos delta fusionados de forma incremental para evitar el sesgo de brevedad y el colapso del contexto. Ganancias reportadas: +10,6 % en tareas de agentes de AppWorld, +8,6 % en razonamiento financiero y ~86,9 % de reducción de latencia promedio frente a sólidas bases de adaptación al contexto. En la instantánea de la tabla de clasificación de AppWorld (20 de septiembre de 2025), ReAct+ACE (59,4%) ≈ IBM CUGA (60,3%, GPT-4.1) mientras se usa DeepSeek-V3.1.

https://arxiv.org/pdf/2510.04618

¿Qué ACE cambia?

ACE posiciona la “ingeniería de contexto” como una alternativa de primera clase a las actualizaciones de parámetros. En lugar de comprimir instrucciones en indicaciones breves, ACE acumula y organiza tácticas específicas de dominio a lo largo del tiempo, argumentando que una mayor densidad de contexto mejora las tareas de agencia donde las herramientas, el estado de múltiples giros y los modos de falla son importantes.

Método: Generador → Reflector → Curador

El generador ejecuta tareas y produce trayectorias (razonamiento/llamadas a herramientas), exponiendo movimientos útiles versus dañinos. Reflector extrae lecciones concretas de esas huellas. Curator convierte las lecciones en elementos delta escritos (con contadores útiles/dañinos) y los fusiona de manera determinista, con deduplicación y poda para mantener el manual enfocado.

Dos opciones de diseño (actualizaciones incrementales delta y crecimiento y refinamiento) preservan el historial útil y evitan el “colapso del contexto” debido a reescrituras monolíticas. Para aislar los efectos del contexto, el equipo de investigación fija la misma base LLM (No-thinking DeepSeek-V3.1) en los tres roles.

Puntos de referencia

AppWorld (agentes): Basado en la línea de base oficial de ReAct, ReAct+ACE supera las líneas de base sólidas (ICL, GEPA, Dynamic Cheatsheet), con un promedio de +10,6 % sobre las líneas de base seleccionadas y ~+7,6 % sobre Dynamic Cheatsheet en la adaptación en línea. En la tabla de clasificación del 20 de septiembre de 2025, ReAct+ACE 59,4 % frente a IBM CUGA 60,3 % (GPT-4.1); ACE supera a CUGA en la división prueba-desafío más difícil, mientras utiliza un modelo base de código abierto más pequeño.

Finanzas (XBRL): en el etiquetado de tokens FiNER y el razonamiento numérico de la fórmula XBRL, ACE informa un promedio de +8,6 % sobre las líneas de base con etiquetas de verdad sobre el terreno para la adaptación fuera de línea; También funciona con retroalimentación solo de ejecución, aunque la calidad de las señales es importante.

https://arxiv.org/pdf/2510.04618
https://arxiv.org/pdf/2510.04618

Costo y latencia

Las fusiones que no son LLM de ACE más las actualizaciones localizadas reducen sustancialmente la sobrecarga de adaptación:

Sin conexión (AppWorld): −82,3 % de latencia y −75,1 % de implementaciones frente a GEPA. En línea (FiNER): −91,5 % de latencia y −83,6 % de costo del token frente a Dynamic Cheatsheet.

https://arxiv.org/pdf/2510.04618

Conclusiones clave

ACE = adaptación primero al contexto: mejora los LLM mediante la edición incremental de un “libro de estrategias” en evolución (elementos delta) curado por Generador→Reflector→Curador, utilizando el mismo LLM base (DeepSeek-V3.1 sin pensamiento) para aislar los efectos del contexto y evitar el colapso de las reescrituras monolíticas. Ganancias medidas: ReAct+ACE reporta +10,6% sobre líneas de base sólidas en AppWorld y logra 59,4% frente a IBM CUGA 60,3% (GPT-4.1) en la instantánea de la tabla de clasificación del 20 de septiembre de 2025; Los puntos de referencia financieros (Fórmula FiNER + XBRL) muestran un promedio de +8,6 % sobre los valores de referencia. Menores gastos generales que las líneas base de reescritura reflexiva: ACE reduce la latencia de adaptación entre un 82% y un 92% y el costo de implementación/token entre un 75% y un 84%, en contraste con la memoria persistente de Dynamic Cheatsheet y los enfoques de evolución rápida de Pareto de GEPA.

Conclusión

ACE posiciona la ingeniería de contexto como una alternativa de primera clase a las actualizaciones de peso: mantenga un manual persistente y seleccionado que acumule tácticas específicas de tareas, generando ganancias mensurables en AppWorld y el razonamiento financiero al tiempo que reduce la latencia de adaptación y la implementación de tokens en lugar de líneas de base de reescritura reflexiva. El enfoque es práctico (fusiones deterministas, elementos delta y entrega consciente del contexto a largo plazo) y sus límites son claros: los resultados rastrean la calidad de la retroalimentación y la complejidad de la tarea. Si se adoptan, las pilas de agentes pueden “autoajustarse” principalmente a través del contexto en evolución en lugar de nuevos puntos de control.

Consulte el DOCUMENTO aquí. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.