¿Cómo se convierten los seguimientos de agentes reales en transiciones de RL de aprendizaje por refuerzo para mejorar los LLM de políticas sin cambiar su pila de agentes existente? El equipo de IA de Microsoft lanza Agent Lightning para ayudar a optimizar los sistemas multiagente. Agent Lightning es un marco de código abierto que hace que el aprendizaje por refuerzo funcione para cualquier agente de IA sin reescrituras. Separa el entrenamiento de la ejecución, define un formato de seguimiento unificado e introduce LightningRL, un método jerárquico que convierte ejecuciones complejas de agentes en transiciones que los entrenadores RL estándar de un solo turno pueden optimizar.
¿Qué hace el Agente Lightning?
El marco modela un agente como un proceso de decisión. Formaliza al agente como un proceso de decisión de Markov parcialmente observable donde la observación es la entrada actual a la política LLM, la acción es la llamada del modelo y la recompensa puede ser terminal o intermedia. De cada ejecución, extrae solo las llamadas realizadas por el modelo de políticas, junto con las entradas, salidas y recompensas. Esto elimina otros ruidos del marco y produce transiciones limpias para el entrenamiento.
LightningRL realiza la asignación de créditos en episodios de varios pasos y luego optimiza la política con un objetivo de RL de un solo turno. El equipo de investigación describe la compatibilidad con los métodos RL de un solo giro. En la práctica, los equipos suelen utilizar formadores que implementan PPO o GRPO, como VeRL, que se adapta a esta interfaz.
Arquitectura del sistema
Agent Lightning utiliza la desagregación de agentes de capacitación. Un servidor Lightning ejecuta entrenamiento y servicio, y expone una API similar a OpenAI para el modelo actualizado. Un Cliente Lightning ejecuta el tiempo de ejecución del agente donde ya se encuentra, captura rastros de indicaciones, llamadas de herramientas y recompensas, y los transmite de regreso al servidor. Esto mantiene las herramientas, los navegadores, los shells y otras dependencias cerca de la producción mientras el entrenamiento de la GPU permanece en el nivel del servidor.
El tiempo de ejecución admite dos rutas de seguimiento. Una ruta predeterminada utiliza intervalos de OpenTelemetry, por lo que puede canalizar la telemetría del agente a través de recopiladores estándar. También hay un rastreador integrado liviano para equipos que no desean implementar OpenTelemetry. Ambos caminos terminan en la misma tienda de entrenamiento.
Interfaz de datos unificada
Agent Lightning registra cada llamada de modelo y cada llamada de herramienta como un lapso con entradas, salidas y metadatos. La capa de algoritmo adapta los intervalos en tripletes ordenados de aviso, respuesta y recompensa. Esta extracción selectiva le permite optimizar un agente en un flujo de trabajo de múltiples agentes, o varios agentes a la vez, sin tocar el código de orquestación. Los mismos seguimientos también pueden impulsar una optimización automática o un ajuste fino supervisado.
Experimentos y conjuntos de datos.
El equipo de investigación informa tres tareas. Para texto a SQL, el equipo utiliza el punto de referencia Spider. Spider contiene más de 10.000 preguntas en 200 bases de datos que abarcan 138 dominios. El modelo de póliza es Llama 3.2 3B Instruct. La implementación utiliza LangChain con un agente de escritura, un agente de reescritura y un verificador. El escritor y el reescritor se optimizan y el corrector se deja fijo. Las recompensas mejoran constantemente durante el entrenamiento y en el momento de los exámenes.
Para la recuperación de generación aumentada, la configuración utiliza el punto de referencia MuSiQue y un índice de escala de Wikipedia con aproximadamente 21 millones de documentos. El recuperador utiliza incrustaciones BGE con similitud de coseno. El agente está creado con el SDK de agentes OpenAI. La recompensa es una suma ponderada de una puntuación de formato y una puntuación de corrección F1. Las curvas de recompensa muestran ganancias estables durante el entrenamiento y la evaluación con el mismo modelo base.
Para responder preguntas de matemáticas con el uso de herramientas, el agente se implementa con AutoGen y llama a una herramienta de calculadora. El conjunto de datos es Calc X. El modelo base nuevamente es Llama 3.2 3B Instruct. La formación mejora la capacidad de invocar herramientas correctamente e integrar los resultados en las respuestas finales.
Conclusiones clave
Agent Lightning utiliza Training Agent Disaggregation y una interfaz de seguimiento unificada, por lo que los agentes existentes en LangChain, OpenAI Agents SDK, AutoGen o CrewAI se conectan con un cambio de código casi nulo. LightningRL convierte trayectorias en transiciones. Aplica la asignación de créditos a ejecuciones de varios pasos y luego optimiza la política con métodos RL de un solo turno, como PPO o GRPO en entrenadores estándar. La recompensa intermedia automática, AIR, proporciona retroalimentación densa. AIR convierte las señales del sistema, como el estado de devolución de la herramienta, en recompensas intermedias para reducir los problemas de recompensas escasas en flujos de trabajo largos. La investigación evalúa texto en SQL en Spider, RAG en MuSiQue con un índice de escala de Wikipedia usando incrustaciones BGE y similitud de coseno, y el uso de herramientas matemáticas en Calc X, todo con Llama 3.2 3B Instruct como modelo base. El tiempo de ejecución registra el seguimiento a través de OpenTelemetry, los transmite al servidor de capacitación y expone un punto final compatible con OpenAI para modelos actualizados, lo que permite implementaciones escalables sin mover herramientas.
Agent Lightning es un puente práctico entre la ejecución del agente y el aprendizaje por refuerzo, no otra reescritura del marco. Formaliza las ejecuciones de agentes como un proceso de decisión de Markov (MDP), presenta LightningRL para la asignación de créditos y extrae transiciones que se ubican en entrenadores de RL de un solo turno. El diseño de desagregación del agente de capacitación separa un cliente que ejecuta el agente de un servidor que entrena y brinda servicio a un punto final compatible con OpenAI, para que los equipos mantengan las pilas existentes. La recompensa intermedia automática convierte las señales de tiempo de ejecución en retroalimentación densa, lo que reduce las recompensas escasas en flujos de trabajo largos. En general, Agent Lightning es una ruta limpia y de mínima integración para hacer que los agentes aprendan de sus propios rastros.
Consulte el documento y el repositorio. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.