LifeLongAgentBench: un punto de referencia para evaluar el aprendizaje continuo en agentes basados ​​en LLM

El aprendizaje permanente es crucial para los agentes inteligentes que navegan en entornos en constante cambio, sin embargo, los agentes actuales basados ​​en LLM se quedan cortos: carecen de memoria y tratan cada tarea como un nuevo comienzo. Si bien los LLM han transformado tareas de lenguaje e inspirado sistemas basados ​​en agentes, estos agentes permanecen apátridos e incapaces de aprender de las experiencias pasadas. El verdadero progreso hacia la inteligencia general requiere agentes que puedan retener, adaptarse y reutilizar el conocimiento con el tiempo. Desafortunadamente, los puntos de referencia actuales se centran principalmente en tareas aisladas, con vistas a la reutilización de habilidades y retención de conocimiento. Sin evaluaciones estandarizadas para el aprendizaje permanente, es difícil medir el progreso real, y problemas como los errores de etiquetas y la reproducibilidad obstaculizan aún más el desarrollo práctico.

El aprendizaje permanente, también conocido como aprendizaje continuo, tiene como objetivo ayudar a los sistemas de IA a construir y retener el conocimiento entre las tareas al tiempo que evita el olvido catastrófico. La mayoría de los trabajos anteriores en esta área se han centrado en tareas no interactivas, como la clasificación de imágenes o el ajuste fino secuencial, donde los modelos procesan entradas y salidas estáticas sin necesidad de responder a entornos cambiantes. Sin embargo, la aplicación de aprendizaje permanente a los agentes basados ​​en LLM que operan en configuraciones dinámicas e interactivas permanecen subexploradas. Los puntos de referencia existentes, como Webarena, AgentBench y VisualWebarena, evalúan el rendimiento de la tarea única, pero no admiten el aprendizaje a lo largo del tiempo. Incluso los estudios interactivos que involucran juegos o herramientas carecen de marcos estándar para evaluar el aprendizaje permanente en los agentes.

Investigadores de la Universidad Tecnológica del Sur de China, Mbzuai, la Academia de Ciencias de China y la Universidad Normal de China East China han introducido el LifeLongagentBench, el primer punto de referencia integral para evaluar el aprendizaje permanente en los agentes basados ​​en LLM. Cuenta con tareas interdependientes e impulsadas por habilidades en tres entornos (datos, sistema operativo y gráfico de conocimiento) con verificación de etiquetas incorporada, reproducibilidad y diseño modular. El estudio revela que la repetición de la experiencia convencional a menudo es ineficaz debido a la inclusión de información irrelevante y la limitación de la duración del contexto. Para abordar esto, el equipo propone un mecanismo grupal de autoconsistencia que agrupa las experiencias pasadas y aplica estrategias de votación, mejorando significativamente el rendimiento del aprendizaje permanente en varias arquitecturas de LLM.

LifeLongAgentBench es un punto de referencia diseñado para probar cuán efectivamente los agentes de modelos de idiomas aprenden y se adaptan en una serie de tareas a lo largo del tiempo. La configuración trata el aprendizaje como un problema de toma de decisiones secuencial utilizando POMDPS condicionados por objetivos dentro de tres entornos: bases de datos, sistemas operativos y gráficos de conocimiento. Las tareas se estructuran en torno a las habilidades centrales y se elaboran para reflejar la complejidad del mundo real, con atención a factores como la dificultad de las tareas, las habilidades superpuestas y el ruido ambiental. La generación de tareas combina la validación automatizada y manual para garantizar la calidad y la diversidad. Este punto de referencia ayuda a evaluar si los agentes pueden aprovechar el conocimiento pasado y mejorar continuamente en entornos dinámicos y basados ​​en habilidades.

LifeLongAgentBench es un nuevo marco de evaluación diseñado para probar qué tan bien los agentes basados ​​en LLM aprenden con el tiempo al abordar las tareas en una secuencia estricta, a diferencia de los puntos de referencia anteriores que se centran en tareas aisladas o paralelas. Su sistema modular incluye componentes como un agente, entorno y controlador, que pueden ejecutarse de forma independiente y comunicarse a través de RPC. El marco prioriza la reproducibilidad y la flexibilidad, apoyando diversos entornos y modelos. A través de experimentos, se ha demostrado que la experiencia de reproducción, los agentes que realizan las trayectorias pasadas exitosas, pueden aumentar significativamente el rendimiento, especialmente en tareas complejas. Sin embargo, las repeticiones más grandes pueden conducir a problemas de memoria, subrayando la necesidad de estrategias de gestión de memoria y reproducción más eficientes.

En conclusión, LifeLongAgentBench es un punto de referencia pionero diseñado para evaluar la capacidad de los agentes basados ​​en LLM para aprender continuamente con el tiempo. A diferencia de los puntos de referencia anteriores que tratan a los agentes como estáticos, este marco prueba su capacidad para construir, retener y aplicar conocimiento en tareas interconectadas en entornos dinámicos, como bases de datos, sistemas operativos y gráficos de conocimiento. Ofrece diseño modular, reproducibilidad y evaluación automatizada. Si bien la reproducción de la experiencia y la autoconsistencia grupal son prometedores para impulsar el aprendizaje, persisten problemas como la sobrecarga de memoria y las ganancias inconsistentes entre los modelos. Este trabajo sienta las bases para desarrollar agentes más adaptables y eficientes en la memoria, con direcciones futuras centradas en el uso de memoria más inteligente y tareas multimodales del mundo real.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.