Este artículo sobre IA de Stanford y Harvard explica por qué la mayoría de los sistemas de ‘IA agencia’ se sienten impresionantes en las demostraciones y luego se desmoronan por completo en el uso real

Los sistemas de IA agente se asientan sobre grandes modelos de lenguaje y se conectan a herramientas, memoria y entornos externos. Ya apoyan el descubrimiento científico, el desarrollo de software y la investigación clínica, pero todavía luchan con el uso poco confiable de herramientas, una planificación deficiente a largo plazo y una generalización deficiente. El último artículo de investigación ‘Adaptación de la IA agente’ de Stanford, Harvard, UC Berkeley y Caltech propone una visión unificada de cómo estos sistemas deberían adaptarse y mapear los métodos existentes en un marco compacto y definido matemáticamente.

¿Cómo modela este artículo de investigación un sistema de IA agente?

La encuesta de investigación modela un sistema de IA agente como agente modelo básico junto con 3 componentes clave. Un módulo de planificación descompone los objetivos en secuencias de acciones, utilizando procedimientos estáticos como Cadena de pensamiento y Árbol de pensamiento, o procedimientos dinámicos como ReAct y Reflexión que reaccionan a la retroalimentación. Un módulo de uso de herramientas conecta al agente con motores de búsqueda web, API, entornos de ejecución de código, protocolos de contexto modelo y automatización del navegador. Un módulo de memoria almacena contexto a corto plazo y conocimiento a largo plazo, al que se accede mediante recuperación de generación aumentada. La adaptación cambia las indicaciones o parámetros para estos componentes utilizando ajustes finos supervisados, métodos basados ​​en preferencias como la optimización directa de preferencias, métodos de aprendizaje por refuerzo como la optimización de políticas próximas y la optimización de políticas relativas al grupo, y técnicas eficientes de parámetros como la adaptación de bajo rango.

https://arxiv.org/pdf/2512.16301

Cuatro paradigmas de adaptación

El marco define 4 paradigmas de adaptación combinando 2 opciones binarias. La primera dimensión es el objetivo, adaptación del agente versus adaptación de la herramienta. La segunda dimensión es la señal de supervisión, ejecución de la herramienta versus salida del agente. Esto produce A1 y A2 para adaptar el agente, y T1 y T2 para adaptar herramientas.

A1, Adaptación del agente señalizada de ejecución de herramientas, optimiza el agente utilizando la retroalimentación derivada de la ejecución de la herramienta. A2, Adaptación del agente señalizado de salida del agente, optimiza el agente utilizando una señal definida solo en sus salidas finales. T1, Adaptación de herramientas independientes del agente, optimiza las herramientas sin hacer referencia a un agente en particular. T2, Adaptación de herramientas supervisadas por agente, optimiza las herramientas bajo la supervisión de un agente fijo.

https://arxiv.org/pdf/2512.16301

A1, aprender de comentarios de herramientas verificables

En A1, el agente recibe una entrada x, produce una llamada de herramienta estructurada a, las herramientas devuelven un resultado y, y el objetivo de aprendizaje O_tool mide el éxito de la herramienta, por ejemplo, la corrección de la ejecución o la calidad de la recuperación. El artículo cubre tanto la imitación supervisada de trayectorias exitosas de herramientas como el aprendizaje por refuerzo que utiliza resultados de herramientas verificables como recompensa.

Toolformer, ToolAlpaca y Gorilla ilustran métodos A1 supervisados, ya que cada uno utiliza resultados de ejecución de herramientas reales para construir o filtrar rastros de entrenamiento antes de la imitación. Todos ellos mantienen la señal de supervisión definida a nivel de comportamiento de la herramienta, no a nivel de respuesta final.

DeepRetrieval es un ejemplo central de aprendizaje por refuerzo A1. Enmarca la reformulación de consultas como un proceso de decisión de Markov donde el estado es la consulta del usuario, la acción es una consulta reescrita y la recompensa combina métricas de recuperación como Recall y nDCG, un término de formato y, para texto a SQL, precisión de ejecución de SQL. La política se entrena con la optimización de política próxima regularizada de KL y el mismo objetivo cubre la búsqueda de literatura, la respuesta a preguntas del corpus y el texto a SQL.

A2, aprender de los resultados finales del agente

A2 cubre casos en los que el objetivo de optimización O_agent depende únicamente del resultado final o producido por el agente, incluso cuando el agente utiliza herramientas internamente. La encuesta muestra que supervisar solo o no es suficiente para enseñar herramientas, porque el agente puede ignorar las herramientas y aun así mejorar la probabilidad. Por lo tanto, los sistemas A2 eficaces combinan la supervisión de las llamadas a herramientas con la supervisión de las respuestas finales, o asignan recompensas escasas, como la precisión de la coincidencia exacta, a o y las propagan a lo largo de la trayectoria completa.

T1, capacitación de herramientas independientes del agente

T1 congela el agente principal y optimiza las herramientas para que sean ampliamente reutilizables. El objetivo O_tool depende únicamente de los resultados de la herramienta y se mide mediante métricas como la precisión de la recuperación, la calidad de la clasificación, la fidelidad de la simulación o el éxito de la tarea posterior. Las políticas de búsqueda entrenadas A1, como DeepRetrieval, se pueden reutilizar posteriormente como herramientas T1 dentro de nuevos sistemas agentes sin modificar el agente principal.

T2, herramientas optimizadas bajo un agente congelado

T2 supone un agente A poderoso pero fijo, lo cual es común cuando el agente es un modelo de base de código cerrado. La herramienta ejecuta llamadas y devuelve resultados que luego el agente utiliza para producir o. El objetivo de optimización nuevamente reside en O_agent, pero los parámetros entrenables pertenecen a la herramienta. El documento describe la capacitación ponderada por calidad, la capacitación basada en objetivos y las variantes de aprendizaje por refuerzo que derivan señales de aprendizaje para la herramienta a partir de los resultados finales del agente.

La encuesta trata la memoria a largo plazo como un caso especial de T2. La memoria es un almacén externo escrito y leído a través de funciones aprendidas, y el agente permanece congelado. Los sistemas T2 recientes incluyen s3, que entrena a un buscador de 7 mil millones de parámetros que maximiza una recompensa Gain Beyond RAG definida por un generador congelado, y AgentFlow, que entrena a un planificador para orquestar módulos basados ​​en Qwen2.5 en su mayoría congelados utilizando Flow GRPO.

https://arxiv.org/pdf/2512.16301

Conclusiones clave

La investigación define un marco preciso de cuatro paradigmas para adaptar la IA agencial cruzando dos dimensiones: si la adaptación se dirige al agente o a las herramientas, y si la señal de supervisión proviene de la ejecución de la herramienta o de los resultados finales del agente. Los métodos A1, como Toolformer, ToolAlpaca, Gorilla y DeepRetrieval, adaptan el agente directamente a partir de comentarios verificables de la herramienta, incluidas métricas de recuperación, precisión de ejecución de SQL y resultados de ejecución de código, a menudo optimizados con optimización de política próxima regularizada por KL. Los métodos A2 optimizan al agente a partir de señales en los resultados finales, por ejemplo, la precisión de las respuestas, y el documento muestra que los sistemas aún deben supervisar las llamadas a herramientas o propagar recompensas escasas a través de trayectorias completas; de lo contrario, el agente puede ignorar las herramientas y al mismo tiempo mejorar la probabilidad. T1 y T2 trasladan el aprendizaje a herramientas y memoria, T1 entrena recuperadores, buscadores y simuladores generalmente útiles sin un agente específico en mente, mientras que T2 adapta herramientas bajo un agente congelado, como en s3 y AgentFlow, donde un generador fijo supervisa a un buscador y planificador aprendido. El equipo de investigación presenta un panorama de adaptación que relaciona el control monolítico versus modular y local versus sistémico, y argumentan que los sistemas prácticos combinarán actualizaciones raras de A1 o A2 en un modelo base sólido con adaptaciones frecuentes de T1 y T2 de recuperadores, políticas de búsqueda, simuladores y memoria para lograr robustez y escalabilidad.

Consulte el repositorio de Paper y GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.