Los LLM permiten interacciones con herramientas externas y fuentes de datos, como API meteorológicas o calculadoras, a través de llamadas a funciones, desbloqueando diversas aplicaciones como agentes autónomos de IA y sistemas de razonamiento neurosimbólico. Sin embargo, el enfoque sincrónico actual para las llamadas a funciones, donde los LLM pausan la generación de tokens hasta que se completa la ejecución de cada llamada, podría consumir más recursos y ser más eficiente. Este proceso bloquea la inferencia LLM (uno de los pasos computacionalmente más exigentes) y limita la concurrencia, ya que las llamadas a funciones deben completarse secuencialmente. Estas ineficiencias crecen con la complejidad de las tareas, lo que hace que las llamadas a funciones sincrónicas no sean prácticas para manejar operaciones múltiples o complejas.

Los esfuerzos recientes para mejorar la eficiencia de las llamadas a funciones LLM incluyen la paralelización de ejecuciones de funciones, la combinación de llamadas secuenciales y la optimización de la sintaxis de funciones. Si bien estas estrategias reducen los gastos generales, persiste el desafío fundamental de la interacción sincrónica. Se han propuesto llamadas a funciones asincrónicas, lo que permite a los LLM continuar generando tokens mientras las llamadas a funciones se ejecutan en segundo plano. Este enfoque permite superponer la ejecución y la inferencia, mejorando la utilización de recursos y reduciendo la latencia. Estudios como ReWOO han explorado más a fondo la consolidación de llamadas a funciones en sesiones únicas, ofreciendo alternativas más eficientes a los métodos sincrónicos tradicionales sin depender de estrategias de razonamiento específicas, mejorando así la escalabilidad entre aplicaciones.

Investigadores de la Universidad de Yale proponen AsyncLM, un sistema para llamadas de funciones LLM asincrónicas que mejora la eficiencia al permitir que los LLM generen y ejecuten llamadas a funciones simultáneamente. AsyncLM introduce un mecanismo de interrupción, que permite al LLM recibir notificaciones en curso cuando regresan las llamadas de una función, evitando así la inactividad de los recursos. Utilizando un lenguaje específico de dominio (CML) y estrategias de ajuste, AsyncLM garantiza una integración perfecta de las interrupciones y un manejo preciso de las dependencias. Las pruebas de referencia en Berkeley Function Calling Leaderboard muestran que AsyncLM logra completar tareas hasta 5,4 veces más rápido que los métodos sincrónicos, manteniendo la precisión. Además, permite aplicaciones novedosas de IA, incluidas las interacciones entre humanos y LLM.

La CML es una interfaz específica de dominio que permite interacciones asincrónicas entre un LLM y un ejecutor. Utiliza tokens como [CALL], [INTR], [TRAP], [END]y [HEAD] hasta llamadas de funciones estructurales, interrupciones y trampas. Los LLM inician tareas utilizando CML, lo que permite la ejecución paralela sin bloquear la generación de tokens. Las interrupciones notifican al LLM sobre las tareas completadas, mientras que las trampas pausan temporalmente la generación cuando no se cumplen las dependencias. AsyncLM emplea ajustes con conjuntos de datos simulados para optimizar la programación de funciones, minimizar el tiempo de finalización de tareas y manejar las interrupciones de manera efectiva. El sistema integra componentes como monitores de tokens, un ejecutor y un administrador de interrupciones para gestionar flujos de trabajo asincrónicos de manera eficiente.

La evaluación se centra en dos aspectos clave: latencia y corrección. La latencia examina la efectividad de las llamadas a funciones asincrónicas para reducir el tiempo de finalización de tareas en comparación con los métodos sincrónicos, mientras que la corrección evalúa su impacto en la generación de llamadas a funciones precisas. La tabla de clasificación de llamadas de funciones de Berkeley (BFCL) cubrió diversas tareas del mundo real, como reservas de viajes e interacciones API, con conjuntos de datos para varios escenarios, incluido un conjunto de datos personalizado de varios pasos para tareas complejas. AsyncLM, probado en configuraciones locales (usando modelos Llama) y en la nube (GPT-4o), demostró reducciones de latencia de hasta 5,4 veces en comparación con los métodos sincrónicos. Los resultados mostraron la eficiencia de Async a la hora de paralelizar tareas y optimizar los ciclos de generación de tokens.

En conclusión, AsyncLM está diseñado para permitir llamadas de funciones asincrónicas para LLM, permitiendo que los modelos y ejecutores de funciones trabajen de forma independiente. A diferencia de los métodos sincrónicos tradicionales, donde la inferencia de LLM se bloquea hasta que se completa una llamada a una función, AsyncLM utiliza un mecanismo de interrupción para notificar al LLM durante la ejecución. Las innovaciones clave incluyen una interfaz en contexto para interacciones asincrónicas, ajuste de LLM para manejar la semántica de interrupciones y una implementación eficiente dentro del proceso de inferencia. Los resultados empíricos en BFCL muestran que AsyncLM reduce la latencia de finalización de tareas entre 1,6 × y 5,4 veces, lo que permite interacciones LLM más eficientes con herramientas, datos y humanos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.