Los sistemas de IA de múltiples agentes que utilizan LLM son cada vez más expertos en abordar tareas complejas en varios dominios. Estos sistemas comprenden agentes especializados que colaboran, aprovechando sus capacidades únicas para lograr objetivos comunes. Dicha colaboración ha demostrado ser efectiva en razonamiento complejo, codificación, descubrimiento de medicamentos y garantía de seguridad a través del debate. Las interacciones estructuradas entre los agentes mejoran la eficiencia de resolución de problemas y proporcionan un mecanismo de autocorrección incorporado, ya que los agentes pueden refinar y verificar las salidas de los demás. Este enfoque colaborativo a menudo supera el rendimiento de un solo agente, especialmente en tareas que requieren razonamiento riguroso o validación objetiva.

A pesar de estos avances, la optimización de sistemas de múltiples agentes presenta desafíos significativos. Un problema principal es adquirir señales de capacitación apropiadas para cada agente, ya que la retroalimentación de recompensas a nivel de tarea está disponible, pero la asignación de crédito entre los agentes sigue siendo ambigua. Determinar cómo atribuir el éxito o el fracaso a las decisiones específicas y los pasos de razonamiento que hace cada agente de LLM es complejo. Este desafío es paralelo al problema de asignación de crédito de múltiples agentes en el aprendizaje de refuerzo. Sin embargo, en los sistemas basados ​​en el lenguaje, el razonamiento se desarrolla a través de interacciones intrincadas y no estructuradas, lo que hace que la atribución sea más difícil que en la configuración de aprendizaje de refuerzo tradicional con espacios de acción bien definidos.

Los investigadores de la Universidad de Stanford presentan a Sirius, un marco de optimización de administración automática para sistemas de múltiples agentes que aprovecha el aprendizaje basado en el razonamiento. Construye una biblioteca de experiencia al retener trayectorias de razonamiento exitosas, proporcionando un conjunto de capacitación de alta calidad. Además, refina los intentos no exitosos a través del aumento, enriqueciendo el conjunto de datos. Sirius mejora el razonamiento y el rendimiento de QA biomédico en un 2.86% a 21.88%, al tiempo que mejora la negociación de agentes en entornos competitivos. Los agentes refinan de manera iterada sus estrategias de colaboración aprendiendo de interacciones exitosas sin supervisión directa. Este enfoque escalable permite una optimización de datos autogenerados, fomentando la mejora continua en los sistemas de múltiples agentes sin depender de la intervención humana de grano fino.

Un sistema de múltiples agentes consiste en agentes que interactúan dentro de un entorno definido, donde cada agente sigue una política para optimizar las recompensas. El entorno se basa principalmente en el lenguaje natural, con agentes que generan respuestas basadas en interacciones previas. Sirius, un marco de administración automática, mejora el rendimiento del agente a través del ajuste iterativo. El proceso incluye generar respuestas, evaluarlas utilizando una función de recompensa, refinar salidas de baja calidad y actualizar políticas a través del aprendizaje supervisado. Al optimizar continuamente las respuestas a través de la capacitación y el aumento iterativo, Sirius mejora el razonamiento y la toma de decisiones en los sistemas de agentes múltiples basados ​​en el lenguaje, lo que lleva a interacciones más efectivas y coherentes con el tiempo.

Los experimentos comparan a Sirius con varias líneas de base, incluidos un agente único, estrella, comunicación y textgrad. Sirius supera constantemente a otros modelos, demostrando una mejor resolución de problemas, descomposición de tareas y colaboración de agentes. Los estudios de ablación revelan que los roles de agentes especializados, la optimización de múltiples agentes y el aumento de la experiencia son cruciales para el rendimiento. Sirius también se destaca en entornos críticos y competitivos de actores, superando a otros métodos en tareas como PubMedqa y los juegos de intercambio de recursos. Sirius ajustado a las tasas de victorias y pagos mejorados, y se generaliza bien en diferentes configuraciones de juegos, confirmando su robustez y adaptabilidad en varios escenarios.

En conclusión, Sirius es un marco diseñado para optimizar los sistemas de múltiples agentes impulsados ​​por LLM a través del aprendizaje de interacciones exitosas y refinando las fallidas. Construye una biblioteca de experiencia que contiene pasos de razonamiento de alta calidad que conducen a resultados exitosos, que sirve como un conjunto de capacitación para la optimización del sistema. Además, Sirius aumenta la biblioteca al mejorar las trayectorias sin éxito. El enfoque aumenta el razonamiento, el control de calidad biomédico y el rendimiento de la negociación de agentes, con mejoras que van desde 2.86% a 21.88%. Sirius también permite la superación continua y genera datos reutilizables para futuras mejoras en la colaboración de múltiples agentes.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Por automata