Hoy en día, los modelos de lenguajes grandes (LLM) se están integrando con sistemas multiagente, donde múltiples agentes inteligentes colaboran para lograr un objetivo unificado. Los marcos multiagente están diseñados para mejorar la resolución de problemas, mejorar la toma de decisiones y optimizar la capacidad de los sistemas de IA. para abordar las diversas necesidades de los usuarios. Al distribuir responsabilidades entre los agentes, estos sistemas garantizan una mejor ejecución de las tareas y ofrecen soluciones escalables. Son valiosos en aplicaciones como la atención al cliente, donde las respuestas precisas y la adaptabilidad son primordiales.

Sin embargo, para implementar estos sistemas multiagente, es necesario crear conjuntos de datos realistas y escalables para pruebas y capacitación. La escasez de datos de dominios específicos y las preocupaciones sobre la privacidad que rodean la información patentada limitan la capacidad de entrenar sistemas de IA de manera efectiva. Además, los agentes de IA de cara al cliente deben mantener un razonamiento lógico y correcto al navegar a través de secuencias de acciones o trayectorias para llegar a soluciones. Este proceso a menudo implica llamadas a herramientas externas, lo que genera errores si se utilizan una secuencia o parámetros incorrectos. Estas imprecisiones conducen a una menor confianza del usuario y una menor confiabilidad del sistema, lo que crea una necesidad crítica de métodos más sólidos para verificar las trayectorias de los agentes y generar conjuntos de datos de prueba realistas.

Tradicionalmente, abordar estos desafíos implicaba confiar en datos etiquetados por humanos o aprovechar los LLM como jueces para verificar las trayectorias. Si bien las soluciones basadas en LLM se han mostrado prometedoras, enfrentan limitaciones significativas, incluida la sensibilidad a las solicitudes de entrada, resultados inconsistentes de los modelos basados ​​en API y altos costos operativos. Además, estos enfoques requieren mucho tiempo y deben ampliarse de manera más efectiva, especialmente cuando se aplican a dominios complejos que exigen respuestas precisas y conscientes del contexto. Como consecuencia, Existe una necesidad urgente de una solución rentable y determinista para validar los comportamientos de los agentes de IA y garantizar resultados confiables..

Los investigadores de Splunk Inc. han propuesto un marco innovador llamado MAG-V (METROulti-AMarco gent para datos sintéticos GRAMOgeneración y Verificación), que pretende superar estas limitaciones. MAG-V es un sistema multiagente diseñado para generar conjuntos de datos sintéticos y verificar las trayectorias de los agentes de IA. El marco introduce un enfoque novedoso que combina técnicas clásicas de aprendizaje automático con capacidades avanzadas de LLM. A diferencia de los sistemas tradicionales, MAG-V no depende de los LLM como mecanismos de retroalimentación. En cambio, utiliza métodos deterministas y modelos de aprendizaje automático para garantizar la precisión y escalabilidad en la verificación de trayectorias.

MAG-V utiliza tres agentes especializados:

  1. Un investigador: el investigador genera preguntas que imitan consultas realistas de los clientes.
  2. Un asistente: el asistente responde en función de trayectorias predefinidas
  3. Una ingeniería inversa: la ingeniería inversa crea preguntas alternativas a partir de las respuestas del asistente.

Este proceso permite que el marco genere conjuntos de datos sintéticos que pongan a prueba las capacidades del asistente. El equipo comenzó con un conjunto de datos inicial de 19 preguntas y lo amplió a 190 preguntas sintéticas mediante un proceso iterativo. Después de un filtrado riguroso, se seleccionaron 45 preguntas de alta calidad para la prueba. Cada pregunta se ejecutó cinco veces para identificar la trayectoria más común, garantizando la confiabilidad del conjunto de datos.

MAG-V emplea similitud semántica, distancia de edición de gráficos y superposición de argumentos para verificar trayectorias. Estas características entrenan modelos de aprendizaje automático como k-Vecinos más cercanos (k-NN), máquinas de vectores de soporte (SVM) y bosques aleatorios. El marco tuvo éxito en su evaluación, superando las líneas de base de los jueces de GPT-40 con un 11% de precisión e igualando el desempeño de GPT-4 en varias métricas. Por ejemplo, el modelo k-NN de MAG-V logró una precisión del 82,33 % y demostró una puntuación F1 de 71,73. El enfoque también demostró rentabilidad al combinar modelos más baratos como GPT-4o-mini con muestras de aprendizaje en contexto, guiándolos a desempeñarse a niveles comparables a los LLM más caros.

El marco MAG-V ofrece resultados al abordar desafíos críticos en la verificación de trayectorias. Su naturaleza determinista garantiza resultados consistentes, eliminando la variabilidad asociada con los enfoques basados ​​en LLM. Al generar conjuntos de datos sintéticos, MAG-V reduce la dependencia de datos reales de los clientes, abordando las preocupaciones de privacidad y la escasez de datos. La capacidad del marco para verificar trayectorias utilizando características estadísticas y basadas en integración representa un progreso en la confiabilidad del sistema de IA. Además, la dependencia de MAG-V de preguntas alternativas para la verificación de trayectorias ofrece un método sólido para probar y validar las vías de razonamiento de los agentes de IA.

Varias conclusiones clave de la investigación sobre MAG-V son las siguientes:

  1. MAG-V generó 190 preguntas sintéticas a partir de un conjunto de datos inicial de 19, filtrándolas en 45 consultas de alta calidad. Este proceso demostró el potencial de la creación de datos escalables para respaldar las pruebas y la capacitación de IA.
  2. La metodología determinista del marco elimina la dependencia de enfoques de LLM como juez, ofreciendo resultados consistentes y reproducibles.
  3. Los modelos de aprendizaje automático entrenados con las funciones de MAG-V lograron mejoras en la precisión de hasta un 11 % con respecto a las líneas de base de GPT-4o, lo que demuestra la eficacia del enfoque.
  4. Al integrar el aprendizaje en contexto con LLM más económicos como GPT-4o-mini, MAG-V proporcionó una alternativa rentable a los modelos de alta gama sin comprometer el rendimiento.
  5. El marco es adaptable a varios dominios y demuestra escalabilidad al aprovechar preguntas alternativas para validar trayectorias.

En conclusión, el marco MAG-V aborda eficazmente desafíos críticos en la generación de datos sintéticos y la verificación de trayectorias para sistemas de IA. El marco ofrece una solución escalable, rentable y determinista al integrar sistemas multiagente con modelos clásicos de aprendizaje automático como k-NN, SVM y Random Forests. La capacidad de MAG-V para generar conjuntos de datos sintéticos de alta calidad y verificar trayectorias con precisión lo hace considerado para implementar aplicaciones de IA confiables.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 [Must Subscribe]: Suscríbase a nuestro boletín para recibir actualizaciones sobre investigaciones y desarrollo de IA


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.