Investigadores de la Universidad de Maryland y Adobe presentan DynaSaur: el agente LLM que se vuelve más inteligente al escribir sus propias funciones

Los sistemas de agentes tradicionales de modelos de lenguaje grande (LLM) enfrentan desafíos importantes cuando se implementan en escenarios del mundo real debido a su flexibilidad y adaptabilidad limitadas. Los agentes de LLM existentes normalmente seleccionan acciones de un conjunto predefinido de posibilidades en cada punto de decisión, una estrategia que funciona bien en entornos cerrados con tareas de alcance limitado pero que se queda corta en entornos más complejos y dinámicos. Este enfoque estático no sólo restringe las capacidades del agente sino que también requiere un esfuerzo humano considerable para anticipar e implementar cada acción potencial de antemano, lo que resulta poco práctico para entornos complejos o en evolución. En consecuencia, estos agentes no pueden adaptarse eficazmente a tareas nuevas e imprevistas ni resolver problemas a largo plazo, lo que destaca la necesidad de capacidades más sólidas y autoevolucionantes en los agentes de LLM.

Investigadores de la Universidad de Maryland y Adobe presentan DinaSaur: un marco de agente LLM que permite la creación dinámica y composición de acciones en línea. A diferencia de los sistemas tradicionales que se basan en un conjunto fijo de acciones predefinidas, DynaSaur permite a los agentes generar, ejecutar y perfeccionar nuevas funciones de Python en tiempo real siempre que las funciones existentes resulten insuficientes. El agente mantiene una biblioteca cada vez mayor de funciones reutilizables, lo que mejora su capacidad para responder a diversos escenarios. Esta capacidad dinámica para crear, ejecutar y almacenar nuevas herramientas hace que los agentes de IA sean más adaptables a los desafíos del mundo real.

Detalles técnicos

La columna vertebral técnica de DynaSaur gira en torno al uso de funciones de Python como representaciones de acciones. Cada acción se modela como un fragmento de Python, que el agente genera, ejecuta y evalúa en su entorno. Si las funciones existentes no son suficientes, el agente crea dinámicamente otras nuevas y las agrega a su biblioteca para su reutilización futura. Este sistema aprovecha la generalidad y la componibilidad de Python, lo que permite un enfoque flexible para la representación de acciones. Además, un mecanismo de recuperación permite al agente recuperar acciones relevantes de su biblioteca acumulada mediante la búsqueda de similitudes basada en incrustaciones, abordando las limitaciones de longitud del contexto y mejorando la eficiencia.

DynaSaur también se beneficia de la integración con el ecosistema Python, brindando al agente la capacidad de interactuar con una variedad de herramientas y sistemas. Ya sea que necesite acceder a datos web, manipular contenidos de archivos o ejecutar tareas computacionales, el agente puede escribir o reutilizar funciones para cumplir con estas demandas sin intervención humana, lo que demuestra un alto nivel de adaptabilidad.

La importancia de DynaSaur radica en su capacidad para superar las limitaciones de conjuntos de acciones predefinidas y así mejorar la flexibilidad de los agentes LLM. En experimentos con el punto de referencia GAIA, que evalúa la adaptabilidad y generalidad de los agentes de IA en un amplio espectro de tareas, DynaSaur superó todas las líneas de base. Usando GPT-4, logró una precisión promedio de 38,21%superando los métodos existentes. Al combinar herramientas diseñadas por humanos con sus acciones generadas, DynaSaur mostró un 81,59% mejora, destacando la sinergia entre las herramientas diseñadas por expertos y las generadas dinámicamente.

En particular, se observó un desempeño sólido en tareas complejas categorizadas en el Nivel 2 y el Nivel 3 del punto de referencia GAIA, donde la capacidad de DynaSaur para crear nuevas acciones le permitió adaptarse y resolver problemas más allá del alcance de las bibliotecas de acciones predefinidas. Al alcanzar la primera posición en la clasificación pública de GAIA, DynaSaur ha establecido un nuevo estándar para los agentes de LLM en términos de adaptabilidad y eficiencia en el manejo de desafíos imprevistos.

Conclusión

DynaSaur representa un avance significativo en el campo de los sistemas de agentes LLM, ofreciendo un nuevo enfoque en el que los agentes no son solo entidades pasivas que siguen guiones predefinidos, sino creadores activos de sus propias herramientas y capacidades. Al generar dinámicamente funciones de Python y crear una biblioteca de acciones reutilizables, DynaSaur mejora la adaptabilidad, flexibilidad y capacidad de resolución de problemas de los LLM, haciéndolos más efectivos para tareas del mundo real. Este enfoque aborda las limitaciones de los sistemas de agentes LLM actuales y abre nuevas vías para desarrollar agentes de IA que puedan evolucionar y mejorar de forma autónoma con el tiempo. De este modo, DynaSaur allana el camino para aplicaciones de IA más prácticas, robustas y versátiles en una amplia gama de dominios.

Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

🐝🐝 Lea este informe de investigación de IA de Kili Technology sobre ‘Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming’

Investigadores de la Universidad de Maryland y Adobe presentan DynaSaur: el agente LLM que se vuelve más inteligente al escribir sus propias funciones

ByEquipo de 7 minutos

Detalles técnicos

Conclusión

By Equipo de 7 minutos

Related Post

Tutorial de Microsoft Fara: ejecute un agente de uso del navegador en Google Colab con un punto final simulado compatible con OpenAI

NVIDIA lanza Nemotron 3.5 ASR: un modelo de transmisión con reconocimiento de caché de 600 M de parámetros que transcribe 40 idiomas locales en tiempo real

¿Quién ganará la Copa Mundial de Fútbol de 2026?

You missed

España tiene 15 millones de mascotas, pero cientos de miles siguen siendo abandonadas cada año « Euro Weekly News

El meme matemático que ha distraído a los matemáticos durante un siglo

El Papa dice que los abusos en la Iglesia “todavía son una herida abierta” cuando comienza su viaje a España

Salim Kumar fallece a los 56 años: el cine malayalam pierde a uno de sus artistas más versátiles