AgentGen: automatización de la generación de entornos y tareas para mejorar las capacidades de planificación en agentes basados en LLM con 592 entornos y 7246 trayectorias

Los modelos de lenguaje de gran tamaño (LLM) han transformado la inteligencia artificial, en particular en el desarrollo de sistemas basados en agentes. Estos sistemas requieren interactuar con diversos entornos y ejecutar acciones para lograr objetivos específicos. Mejorar las capacidades de planificación de los agentes basados en LLM se ha convertido en un área de investigación fundamental debido a la naturaleza compleja y la necesidad esencial de completar tareas con precisión en numerosas aplicaciones.

Un desafío importante en este campo de investigación es el trabajo manual intensivo que se requiere para crear entornos y tareas de planificación diversos y extensos. Las metodologías actuales dependen predominantemente de escenarios diseñados manualmente, lo que limita la diversidad y la cantidad de datos de entrenamiento disponibles. Esta limitación obstaculiza el potencial de los LLM para generalizarse y funcionar bien en una amplia gama de situaciones. Para abordar este problema, los investigadores han introducido técnicas automatizadas para generar un amplio espectro de entornos y tareas de planificación, enriqueciendo así los conjuntos de datos de entrenamiento para los agentes basados en LLM.

El equipo de investigación de la Universidad de Hong Kong y Microsoft Corporation ha propuesto un nuevo marco denominado AGENTEGENque utiliza LLMs para automatizar la generación de entornos y sus correspondientes tareas de planificación. Este enfoque innovador implica dos etapas principales: generación de entornos y generación de tareas. Inicialmente, el marco utiliza un corpus de inspiración que comprende diversos segmentos de texto para crear especificaciones de entornos detalladas y variadas. A continuación, AGENTGEN genera tareas de planificación relacionadas que van desde simples a complejas, lo que garantiza una progresión fluida de dificultad y facilita un aprendizaje efectivo para los LLMs.

AGENTGEN se distingue por emplear un sofisticado proceso de generación de entornos. Los investigadores diseñaron un corpus de inspiración que sirviera como contexto para sintetizar las especificaciones del entorno, que incluyen una descripción general completa del entorno, descripciones de los espacios de estado y acción y definiciones de funciones de transición. Por ejemplo, un segmento de texto de muestra podría impulsar la creación de un entorno en el que el agente es un nutricionista encargado de desarrollar un nuevo libro de recetas que incluye mantequilla de maní en polvo. Este método garantiza un alto nivel de diversidad en los entornos generados, lo que crea numerosos escenarios únicos y desafiantes para el entrenamiento del agente.

El proceso de generación de tareas dentro de AGENTGEN mejora aún más los datos de entrenamiento al aplicar un método de evolución bidireccional conocido como BI-EVOL. Este método hace evolucionar las tareas en dos direcciones: simplificando las condiciones de los objetivos para crear tareas más fáciles y aumentando la complejidad para desarrollar otras más desafiantes. Este enfoque bidireccional da como resultado un conjunto integral de tareas de planificación que respaldan una curva de aprendizaje gradual y efectiva para los LLM: al implementar BI-EVOL, el equipo de investigación generó 592 entornos únicos, cada uno con 20 tareas, lo que dio como resultado 7246 trayectorias de alta calidad para el entrenamiento.

La eficacia de AGENTGEN se evaluó rigurosamente utilizando la plataforma AgentBoard. Los resultados fueron impresionantes y demostraron mejoras significativas en las capacidades de planificación de los agentes basados en LLM. El modelo Llama-3 8B optimizado con AGENTGEN superó a GPT-3.5 en rendimiento general y, en ciertas tareas, incluso superó a GPT-4. Específicamente, AGENTGEN logró una mejora cinco veces mayor en comparación con el Llama-3 8B sin procesar en tareas dentro del dominio, con tasas de éxito que aumentaron de 1,67 a 11,67. Además, AGENTGEN mostró una mejora sustancial del rendimiento en tareas fuera del dominio, logrando una tasa de éxito de 29,1 en Alfworld, en comparación con 17,2 para GPT-3.5.

AGENTGEN demostró capacidades de generalización robustas en varios modelos y tareas. El éxito del marco fue evidente en su capacidad para mejorar el rendimiento de la planificación de múltiples LLM, incluidos los modelos 7-8B más pequeños. Por ejemplo, Llama-3 8B, después del entrenamiento con AGENTGEN, mostró un aumento de la tasa de éxito de 10,0 y un aumento de la tasa de progreso de 9,95. Estos resultados subrayan la eficacia de AGENTGEN para mejorar las capacidades de los agentes basados en LLM, independientemente del modelo específico utilizado.

En conclusión, AGENTGEN, al automatizar la generación de diversos entornos y tareas de planificación, aborda las limitaciones del diseño manual y ofrece un enfoque escalable y eficiente para mejorar el rendimiento de los agentes. La capacidad del marco para generar datos de trayectoria de alta calidad y su éxito demostrado dentro y fuera de las tareas de dominio resaltan su potencial para revolucionar el entrenamiento y la aplicación de agentes basados en LLM. Las contribuciones de AGENTGEN a las metodologías de entrenamiento de agentes están preparadas para mejorar el desarrollo de sistemas inteligentes capaces de realizar tareas de planificación complejas con mayor precisión y eficiencia.

Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí

AgentGen: automatización de la generación de entornos y tareas para mejorar las capacidades de planificación en agentes basados en LLM con 592 entornos y 7246 trayectorias

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

La apuesta del LLM | Hacia la ciencia de datos

¿Qué significa el valor p?

You missed

Los diamantes son sorprendentemente elásticos cuando los haces pequeños

Cómo un circuito de retroalimentación climática impulsa el calentamiento galopante

La principal plataforma de segunda mano de China, “Zhuanzhuan”, aterriza en Hong Kong mientras OASES anuncia el sexto lote de empresas estratégicas

Se modifica la regla V16 y aumentan las multas en España « Euro Weekly News