Hexo Labs Open-Sources SIA: un agente de mejora automática que actualiza tanto el arnés como los pesos del modelo

La mayoría de los agentes de IA dejan de mejorar una vez que un humano deja de ajustarlos. El modelo está arreglado. El andamio que lo rodea está arreglado. Hexo Labs quiere mover ambos a la vez. Esta semana lanzó SIA (IA automejorada) como un marco de código abierto bajo una licencia del MIT.

La afirmación central de esta investigación es estrecha pero concreta. SIA edita tanto el andamio del agente como los pesos del modelo dentro de un bucle de mejora automática.

¿Qué es SIA (IA de mejora personal)?

SIA divide un agente de tarea específica en dos partes. El primero es el arnés, también llamado andamio. Esto cubre el aviso del sistema, la lógica de envío de herramientas, la política de reintento y el código de extracción de respuestas. La segunda parte son los pesos del modelo.

Tres componentes de LLM impulsan el ciclo. Un Meta-Agente escribe el andamiaje inicial a partir de una especificación de tarea y cualquier código de referencia. Un agente específico de la tarea ejecuta la tarea y registra cada paso. Luego, un agente de retroalimentación lee esa trayectoria completa y decide qué cambiar.

Esa decisión es la idea clave. Después de cada ejecución, el agente de retroalimentación elige una de dos acciones. Puede reescribir el andamio mientras los pesos permanecen fijos. O puede provocar una actualización de peso mientras el andamio permanece fijo.

El modelo base es openai/gpt-oss-120b. Las actualizaciones de peso utilizan LoRA, un adaptador de rango bajo, en el rango 32. Tanto el Meta-Agent como el Feedback-Agent se ejecutan en Claude Sonnet 4.6. La capacitación se ejecuta en GPU H100 a través de Modal, la plataforma RL del equipo.

El equipo de investigación etiqueta sus dos puntos de funcionamiento como SIA-H y SIA-W+H. SIA-H utiliza únicamente actualizaciones de arnés. SIA-W+H agrega actualizaciones de peso en la parte superior.

https://arxiv.org/pdf/2605.27276

El caso de referencia

El equipo de investigación probó SIA en tres dominios deliberadamente diferentes. El patrón se mantuvo en los tres. Las actualizaciones de peso agregaron ganancias más allá de lo que logró la edición de andamios por sí sola. “Inicial” es el modelo base a través del primer andamio del Meta-Agente, antes de cualquier retroalimentación.

TareaInicialPrev. SOTASIA-H (solo arnés)SIA-W+H (arnés + pesas)LawBench (top-1 acc)13.5%45.0%50.0%70.1%AlphaEvolve TriMul (recompensa)0.1051.2920.1201.475Denoising (mse_norm)0.0480.2400.2410.289

En LawBench, la tarea es la clasificación de cargos penales chinos de clase 191. La iteración del arnés construyó una canalización TF-IDF más LinearSVC y se estabilizó en 50,0%. Las actualizaciones de peso a través de PPO aumentaron la precisión al 70,1 %. Eso es una ganancia de 20,1 puntos porcentuales sobre el mejor vehículo solo con arnés.

La tarea TriMul solicita un kernel CUDA personalizado en una GPU H100. El kernel calcula una operación central en el módulo Evoformer de AlphaFold2. Las ediciones de scaffold alcanzaron una aceleración de 1,14 veces con respecto a la línea de base. Luego, las actualizaciones de peso aumentaron el tiempo de ejecución de 12.483 a 1.017 microsegundos. Eso es una reducción del 91,9% con respecto al pico de uso exclusivo del arnés.

En el mismo gráfico aparece una advertencia sincera. El agente codificador Claude Code alcanzó 1,50× en TriMul sin ayuda, superando los 1,14× de SIA-H. SIA-W+H sigue liderando la general con 14,02×.

Para eliminar el ruido, el agente sintoniza MAGIC, un método de imputación de ARN unicelular. El arnés barre sus hiperparámetros establecidos en 0,241 mse_norm. El primer punto de control de actualización de peso agregó un paso de dos líneas que ningún andamio produjo. Redondeó los recuentos imputados a números enteros no negativos, elevando la puntuación a 0,289.

Cómo elige su movimiento el agente de retroalimentación

SIA no ejecuta una receta RL fija. El agente de retroalimentación selecciona un algoritmo de entrenamiento basado en la señal de recompensa que observa.

En LawBench, la recompensa era un escalar limpio basado en resultados, por lo que utilizó PPO con GAE. En TriMul, la mayoría de los núcleos no pudieron compilarse, por lo que utilizó ponderación de ventaja entrópica. Ese método aumenta el peso de los lanzamientos raros de alta recompensa. Para eliminar el ruido, utilizó GRPO, que elimina por completo la red de valor.

El equipo de investigación también enumera REINFORCE con clonación conductual KL a base, DPO y mejor de N. Cada uno se asigna a una forma de recompensa y riesgo de fracaso diferentes.

Fortalezas y qué observar

Fortalezas:

Primer sistema que edita tanto el andamio como los pesos en un solo bucle, según la tabla comparativa de los autores. Ganancias consistentes con respecto a SOTA anterior en tres dominios no relacionados. Código abierto bajo MIT, instalable como sia-agent, con cuatro tareas incluidas. La elección del algoritmo está condicionada a las recompensas observadas, no a un calendario fijo.

Qué mirar:

La investigación reporta tres tareas; se difieren los resultados más amplios de selección de algoritmos. Ambas palancas optimizan el mismo verificador fijo, con el riesgo de efectos Goodhart acoplados. La investigación advierte que el punto fijo de la articulación puede volverse frágil bajo perturbación.

Explicador visual de Marktechpost

Laboratorios Hexo · Código abierto (MIT)

SIA: IA de mejora personal

Actualizaciones de arnés y peso

Un bucle de mejora automática que edita tanto el andamio de un agente como los pesos de su modelo, sin necesidad de ajustes humanos adicionales.

gpt-oss-120b
Rango 32 de LoRA
3 puntos de referencia
Claude Soneto 4.6 agentes

La brecha

Dos silos que funcionan de forma aislada

escuela de arneses

Editar el andamio

Un metaagente reescribe indicaciones, herramientas y lógica de reintento. Los pesos del modelo permanecen fijos.

Entrenamiento en el momento del examen

Editar los pesos

Una canalización de RL actualiza el modelo en función de la retroalimentación de la tarea. El arnés permanece fijo.

SIA cierra la brecha moviendo ambas palancas dentro de un bucle.

Anatomía

Qué es realmente SIA

Arnés (andamio): el indicador del sistema, la lógica de envío de herramientas, la política de reintento y el código de extracción de respuestas. Pesos: los parámetros propios del modelo, adaptados con LoRA en el rango 32. Tres componentes LLM impulsan el ciclo: un metaagente, un agente de tarea específica y un agente de retroalimentación.

El bucle

Un bucle, dos palancas

Después de cada ejecución, el agente de retroalimentación lee la trayectoria completa y elige una acción.

Acción A

Actualización del arnés

Reescribe el andamio. Los pesos se mantienen fijos.

Acción B

Actualización de peso

Entrena pesas LoRA. El andamio se mantiene fijo.

Las dos palancas se entrelazan libremente, no en fases secuenciales bloqueadas.

Evidencia

Resultados de referencia

TareaInicialPrev. SOTASIA-HSIA-W+H LawBench (primera cuenta)13.5%45.0%50.0%70.1% AlphaEvolve TriMul (recompensa)0.1051.2920.1201.475 Eliminación de ruido (mse_norm)0.0480.2400.2410.289

SIA-W+H (arnés + pesas) venció a SIA-H (solo arnés) en las tres tareas.

Mecanismo

Cómo elige su movimiento el agente de retroalimentación

LawBench: una recompensa limpia basada en resultados, por lo que utilizó PPO con GAE. La precisión alcanzó el 70,1%. TriMul: la mayoría de los núcleos no se compilan, por lo que utilizó ponderación de ventaja entrópica. El tiempo de ejecución alcanzó los 1.017 µs. Denoising: utilizó GRPO, que elimina la red de valor. La puntuación aumentó a 0,289. También disponible: REINFORCE + KL a base, DPO y clonación de comportamiento mejor de N.

RQ2

Lo que cambia cada palanca

Aprovechar

Cambios externalizados

Mejoras en la ingeniería de software: nuevas herramientas, analizadores más estrictos, lógica de reintento.

Pesos

Conocimiento internalizado

El conocimiento del dominio no llega a ningún mensaje: patrones del kernel H100, un paso de redondeo de enteros.

El arnés da forma a la forma en que el agente busca; Las actualizaciones de peso cambian lo que sabe el modelo.

La lectura honesta

Limitaciones a tener en cuenta

Ambas palancas optimizan el mismo verificador fijo, con el riesgo de un efecto Goodhart coevolutivo acoplado. Los puntos fijos pueden parecer fuertes en el verificador pero permanecer frágiles bajo perturbación. El documento informa tres tareas; se difieren los resultados más amplios de selección de algoritmos. En el documento no aparece una afirmación separada de superinteligencia de 350× en la cobertura del lanzamiento.

Empezar

Ejecútelo usted mismo

Código abierto bajo el MIT en hexo-ai/sia. Construido sobre gpt-oss-120b con rango 32 de LoRA.

# instalar el backend de Claude
instalación de pipas ‘sia-agente[claude]’
exportar ANTHROPIC_API_KEY=“…”

# ejecutar 5 generaciones de superación personal en una tarea agrupada
sia –task lawbench –max_gen 5 –run_id 1

En la caja se incluyen cuatro tareas incluidas: gpqa, lawbench, longcot-chess, spaceship-titanic.

← Anterior
01 / 09
Siguiente →

Conclusiones clave

SIA es el primer bucle de mejora automática que edita tanto el andamio de un agente como los pesos de su modelo. Un agente de retroalimentación lee la trayectoria completa de cada carrera y luego elige una reescritura del arnés o una actualización del peso. La combinación de ambas palancas superó al andamio solo en las tres tareas: LawBench, núcleos TriMul y eliminación de ruido scRNA-seq. Las ediciones de aprovechamiento añaden higiene a la ingeniería de software; El peso actualiza el conocimiento del dominio de la superficie y no llega ningún mensaje. Código abierto bajo MIT (hexo-ai/sia), construido sobre gpt-oss-120b con rango 32 de LoRA.

Consulte el repositorio y el artículo de investigación. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros