Screenshot 2024 02 01 At 2.09.16 Pm.png

Evaluar los LLM como agentes versátiles es crucial para su integración en aplicaciones prácticas. Sin embargo, los marcos de evaluación existentes enfrentan desafíos al comparar diversos escenarios, mantener entornos parcialmente observables y capturar interacciones de múltiples rondas. Las evaluaciones actuales a menudo se centran en una métrica simplificada de la tasa de éxito final, lo que proporciona información limitada sobre los procesos complejos. La complejidad de las tareas de los agentes, que implican interacciones de múltiples rondas y toma de decisiones basadas en un contexto extenso, requiere un enfoque de evaluación más detallado y sistemático. Abordar la necesidad de diversidad de tareas y evaluaciones integrales en entornos desafiantes es esencial para avanzar en este campo.

Investigadores de la Universidad de Hong Kong, la Universidad de Zhejiang, la Universidad Jiao Tong de Shanghai, la Universidad de Tsinghua, la Facultad de Ingeniería, la Universidad de Westlake y la Universidad de Ciencia y Tecnología de Hong Kong han desarrollado AgentBoard. AgentBoard es un marco de evaluación de código abierto y de referencia innovador para analizar agentes de LLM. AgentBoard presenta una métrica de tasa de progreso detallada y un conjunto de herramientas integral para la visualización interactiva, lo que arroja luz sobre las capacidades y limitaciones de los agentes de LLM. Con nueve tareas diversas y 1013 entornos, AgentBoard cubre IA incorporada, agentes de juegos, agentes web y agentes de herramientas, lo que garantiza características de múltiples rondas y parcialmente observables.

El estudio profundiza en las capacidades multifacéticas de los LLM como agentes de toma de decisiones. Si bien el aprendizaje por refuerzo proporciona soluciones generales, los LLM se destacan en la toma de decisiones con razonamiento emergente y habilidades para seguir instrucciones, lo que demuestra una impresionante generalización de tiro cero. Técnicas como las indicaciones contextuales permiten a los LLM generar acciones ejecutables y los métodos de capacitación especializados las reutilizan para convertirlas en agentes expertos. La investigación compara los LLM generales y específicos de agentes, abordando dimensiones como objetivos básicos, modelado mundial, planificación paso a paso y autorreflexión.

AgentBoard es un marco integral de evaluación y referencia que se centra en los LLM como agentes versátiles. Emplea una métrica de tasa de progreso detallada y un conjunto de herramientas de evaluación exhaustiva para un análisis matizado de agentes LLM en entornos basados ​​en texto. El método implica mantener entornos parcialmente observables y garantizar interacciones de múltiples rondas. AgentBoard facilita una evaluación sencilla a través de visualización interactiva, ofreciendo información sobre las capacidades y limitaciones de los agentes de LLM. El punto de referencia, que presenta subobjetivos definidos manualmente, introduce una métrica de tasa de progreso unificada que destaca avances sustanciales del modelo más allá de las tasas de éxito tradicionales. El marco de evaluación AgentBoard, accesible y personalizable, permite un análisis detallado de las capacidades de los agentes, enfatizando la importancia de la evaluación analítica para los LLM, incluido GPT-4 y los LLM prometedores de código abierto como DeepSeek LLM y Lemur.

AgentBoard es un marco de referencia para evaluar los LLM como agentes de propósito general. Ofrece una métrica de tasa de progreso que captura avances incrementales y un conjunto de herramientas para análisis multifacético. Los LLM patentados superan a los modelos abiertos, y GPT-4 muestra un mejor rendimiento. Los LLM de código demuestran un rendimiento relativamente superior entre los modelos de peso abierto. Los modelos de peso abierto muestran un desempeño débil en la categoría de Juegos, lo que indica la necesidad de mejorar las capacidades de planificación. Las tasas de éxito en la categoría Herramientas son bajas, pero los modelos abiertos ofrecen tasas de progreso comparativamente más altas.

En conclusión, AgentBoard es una herramienta para evaluar los LLM como agentes de propósito general. Proporciona un completo conjunto de herramientas de evaluación y un panel web de visualización interactiva. Los LLM patentados funcionan mejor que los modelos abiertos, y GPT-4 funciona mejor en las categorías de Juegos e IA incorporada. Los LLM de código, como DeepSeek-67b y CodeLlama-34b, demuestran un rendimiento relativamente bueno entre los modelos abiertos, lo que destaca la importancia de tener sólidas habilidades de código. Los modelos de peso abierto muestran un desempeño débil en la categoría de Juegos, lo que indica la necesidad de mejorar las capacidades de planificación. Los modelos abiertos muestran efectividad en el uso de herramientas, pero necesitan mejorar el resumen de la información devuelta por estas herramientas en la categoría Herramientas.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.