Investigadores de Sea AI Lab, UCAS, NUS y SJTU introducen FlowRasoner: un meta-agente de nivel de consulta para la generación de sistemas personalizados

Los sistemas de múltiples agentes basados ​​en LLM caracterizados por la planificación, el razonamiento, el uso de la herramienta y las capacidades de memoria forman la base de aplicaciones como chatbots, generación de código, matemáticas y robótica. Sin embargo, estos sistemas enfrentan desafíos significativos a medida que se diseñan manualmente, lo que lleva a altos costos de recursos humanos y una escalabilidad limitada. Los métodos basados ​​en gráficos han intentado automatizar los diseños de flujo de trabajo formulando flujos de trabajo como redes, pero su complejidad estructural restringe la escalabilidad. Los enfoques de vanguardia representan sistemas de múltiples agentes como código de programación y usan LLM avanzados como meta-agentes para optimizar los flujos de trabajo, pero se centran en soluciones a nivel de tareas que generan sistemas específicos de tareas únicas. Este enfoque único para todos carece de la capacidad para la adaptación automática a las consultas individuales de los usuarios.

Los sistemas de múltiples agentes basados ​​en LLM son la base de varias aplicaciones del mundo real, incluida la inteligencia del código, el uso de la computadora y la investigación profunda. Estos sistemas cuentan con agentes basados ​​en LLM equipados con capacidades de planificación, acceso a la base de datos e invocación de la función de herramienta que colaboran para lograr un rendimiento prometedor. Los primeros enfoques se centraron en optimizar las indicaciones o hiperparámetros a través de algoritmos de evolución para automatizar el perfil de agentes. ADAS introdujo la representación del código para agentes y flujos de trabajo con un meta-agente para generar flujos de trabajo. Además, Openai ha avanzado razonamiento en LLM mediante el desarrollo del modelo O1. Modelos como QWQ, QVQ, Deepseek y Kimi han seguido su ejemplo, desarrollando arquitecturas de razonamiento similares a O1. El modelo O3 de Openai logra resultados prometedores en el punto de referencia Arg-AGI.

Investigadores del Laboratorio de AI Sea, Singapur, la Universidad de la Academia de Ciencias de China, la Universidad Nacional de Singapur y la Universidad de Shanghai Jiao Tong han propuesto FlowRazerer, un meta-agente de nivel de consulta diseñado para automatizar la creación de sistemas de múltiples agentes de nivel de consulta, generando un sistema personalizado por consulta de usuario. Los investigadores destilaron Deepseek R1 para suministrar flujo de flujo con las capacidades de razonamiento fundamental necesarias para crear sistemas de múltiples agentes, y luego lo mejoraron a través del aprendizaje de refuerzo con retroalimentación de ejecución externa. Se desarrolla un mecanismo de recompensa multipropósito para optimizar el entrenamiento en tres dimensiones críticas: rendimiento, complejidad y eficiencia. Esto permite a FlowRasoner generar sistemas personalizados de múltiples agentes a través del razonamiento deliberativo para cada consulta de usuario única.

Los investigadores seleccionan tres conjuntos de datos: BigCodeBench para tareas orientadas a la ingeniería, Humaneval y MBPP para desafíos algorítmicos para una evaluación detallada en diversos escenarios de generación de código. FlowRasoner se evalúa en tres categorías de líneas de base:

  • Invocación directa de modelo único utilizando LLMS independientes
  • Flujos de trabajo diseñados manualmente que incluyen auto-refino, LLM-DEBATE y LLM-Blender con estrategias de razonamiento hechas por humanos
  • Métodos de optimización de flujo de trabajo automatizado como Aflow, ADAS y MAAS que construyen flujos de trabajo a través de la búsqueda u optimización.

Tanto O1-Mini como GPT-4O-Mini se utilizan como modelos de trabajadores para flujos de trabajo diseñados manualmente. FlowRasoner se implementa con dos variantes de Deepseek-R1-Distill-Qwen (parámetros 7b y 14b) utilizando O1-Mini como modelo de trabajadores.

FlowRasoner-14b supera a todos los enfoques competitivos, logrando una mejora general de 5 puntos porcentuales en comparación con la línea de base más fuerte, MAAS. Excede el rendimiento de su modelo de trabajador subyacente, O1-Mini, por un margen sustancial del 10%. Estos resultados muestran la efectividad del marco de razonamiento basado en el flujo de trabajo para mejorar la precisión de la generación de código. Para evaluar las capacidades de generalización, se realizan experimentos que reemplazan al trabajador O1-Mini con modelos como QWEN2.5-coder, Claude y GPT-4O-Mini, mientras mantienen el meta-agente fijo como FlowReador-7B o FlowResterer-14B. FlowRasoner exhibe una transferibilidad notable, manteniendo un rendimiento constante en diferentes modelos de trabajadores en las mismas tareas.

En este documento, los investigadores presentan FlowRasoner, un meta-agente a nivel de consulta diseñado para automatizar la creación de sistemas personalizados de agentes múltiples para consultas individuales de usuarios. FlowRasoner utiliza retroalimentación de ejecución externa y aprendizaje de refuerzo con recompensas multipropósito centradas en el rendimiento, la complejidad y la eficiencia para generar flujos de trabajo optimizados sin depender de algoritmos de búsqueda complejos o conjuntos de búsqueda cuidadosamente diseñados. Este enfoque reduce los costos de recursos humanos al tiempo que mejora la escalabilidad al permitir sistemas de agentes múltiples más adaptativos y eficientes que optimizan dinámicamente su estructura en función de consultas específicas de los usuarios en lugar de depender de flujos de trabajo fijos para categorías de tareas completas.


Mira el Papel y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.