FunctionChat-Bench: Evaluación integral de las capacidades de llamada de funciones de los modelos de lenguaje en escenarios interactivos

La llamada a funciones ha surgido como una capacidad transformadora en los sistemas de IA, permitiendo que los modelos de lenguaje interactúen con herramientas externas a través de la generación de objetos JSON estructurados. Sin embargo, las metodologías actuales enfrentan desafíos críticos al simular de manera integral escenarios de interacción del mundo real. Los enfoques existentes se centran predominantemente en generar mensajes de llamadas específicos de herramientas, pasando por alto los requisitos matizados de las interacciones conversacionales entre humanos y IA. La complejidad de los diálogos de uso de herramientas se extiende más allá de la mera invocación de funciones mecánicas, lo que exige un enfoque más holístico que navegue sin problemas en las interacciones de las herramientas y la comunicación del usuario. Por lo tanto, existe la necesidad de marcos de llamada de funciones más complejos y adaptativos que cierren la brecha entre la precisión técnica y la dinámica conversacional natural.

Estudios recientes se han centrado cada vez más en explorar cómo los modelos de lenguaje utilizan herramientas, lo que lleva al desarrollo de varios puntos de referencia para evaluar sus capacidades. Destacados marcos de evaluación como APIBench, GPT4Tools, RestGPT y ToolBench se han concentrado en desarrollar metodologías de evaluación sistemática para el uso de herramientas. Los enfoques innovadores existentes como MetaTool investigan el conocimiento del uso de herramientas, mientras que BFCL introduce la detección de relevancia de funciones. A pesar de estos avances, las metodologías existentes se centran predominantemente en generar resultados de tipo llamada a herramientas, que no interactúan directamente con los usuarios. Este estrecho enfoque de evaluación revela una brecha crítica en la medición integral de las capacidades interactivas de los modelos lingüísticos.

Investigadores de Kakao Corp./Sungnam, Corea del Sur, han propuesto FunctionChat-Bench, un método para evaluar las capacidades de llamada de funciones de los modelos de lenguaje en diversos escenarios de interacción. Este método aborda las limitaciones críticas de las metodologías de evaluación existentes mediante la introducción de un conjunto de datos sólido que comprende 700 elementos de evaluación y programas de evaluación automatizados. Además, FunctionChat-Bench examina el rendimiento de los modelos de lenguaje en contextos de diálogo de un solo turno y de varios turnos, centrándose en las capacidades de llamada de funciones. Desafía críticamente la suposición de que el alto rendimiento en escenarios de llamadas de herramientas aisladas se correlaciona directamente con la competencia interactiva general.

El punto de referencia FunctionChat-Bench presenta un marco de evaluación complejo de dos subconjuntos para evaluar las capacidades de llamada de funciones de los modelos de lenguaje: (a) conjunto de datos de llamada única y (b) conjunto de datos de diálogo. Las siguientes condiciones definen elementos de evaluación en el conjunto de datos de llamada única:

La expresión de un solo turno del usuario debe contener toda la información necesaria para la invocación de la función, lo que lleva directamente a una llamada a la herramienta.
En la lista de herramientas disponibles se debe proporcionar una función adecuada para llevar a cabo la solicitud del usuario.

Por el contrario, el conjunto de datos de Dialog simula escenarios de interacción del mundo real más complejos, desafiando los modelos de lenguaje para navegar en diversos contextos de entrada. Los criterios de evaluación clave para el método propuesto incluyen la capacidad del modelo para comunicar los resultados de la invocación de la herramienta, solicitar la información faltante cuando sea necesario y manejar las interacciones del usuario.

Los resultados experimentales de FunctionChat-Bench revelan información detallada sobre el rendimiento de las llamadas a funciones de los modelos de lenguaje en diferentes escenarios. La precisión de los modelos no disminuyó consistentemente al aumentar el número de funciones candidatas entre 1 y 8 candidatas. En particular, el modelo Gemini demuestra una mayor precisión a medida que aumenta el número de funciones candidatas. GPT-4-turbo muestra una diferencia sustancial de precisión de 10 puntos entre escenarios de tipo de función aleatoria y cercana. Además, el conjunto de datos de diálogo proporciona generación de llamadas de herramientas, resultados conversacionales, preguntas para llenar espacios y detección de relevancia de llamadas de herramientas en interacciones de discurso de múltiples turnos.

En este artículo, los investigadores presentaron FunctionChat-Bench, un punto de referencia que evalúa exhaustivamente las capacidades de llamada de funciones de los modelos de lenguaje, extendiéndose más allá de las metodologías de evaluación tradicionales. Proporcionan información detallada sobre el rendimiento generativo de los modelos de lenguaje mediante el desarrollo de un nuevo conjunto de datos con subconjuntos de llamada única y diálogo, y un programa de evaluación automatizado. Utilizando un LLM avanzado como juez de evaluación con rúbricas refinadas, FunctionChat-Bench ofrece un marco complejo para evaluar la competencia en llamadas de funciones. Sin embargo, este punto de referencia tiene limitaciones al evaluar aplicaciones de llamada de funciones avanzadas. El estudio sienta las bases para futuras investigaciones y destaca la complejidad de los sistemas interactivos de IA.

Verificar el papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

FunctionChat-Bench: Evaluación integral de las capacidades de llamada de funciones de los modelos de lenguaje en escenarios interactivos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

xAI lanza grok-voice-think-fast-1.0: encabezando el banco de τ-voice con un 67,3%, superando a Gemini, GPT Realtime y más

Una implementación de codificación en OpenMementos de Microsoft con análisis de estructura de seguimiento, compresión de contexto y preparación de datos de ajuste fino

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

You missed

Los científicos revelan la cantidad óptima de sueño para reducir el riesgo de demencia: ScienceAlert

Orihuela refuerza la Policía Local con nuevos vehículos todoterreno y drones avanzados – El Líder

Con quién salió antes de Megan Thee Stallion – Hollywood Life

xAI lanza grok-voice-think-fast-1.0: encabezando el banco de τ-voice con un 67,3%, superando a Gemini, GPT Realtime y más