Este artículo de IA propone ML-BENCH: un nuevo enfoque de inteligencia artificial desarrollado para evaluar la eficacia de los LLM para aprovechar las funciones existentes en bibliotecas de código abierto

Los modelos LLM se han implementado cada vez más como potentes agentes lingüísticos capaces de realizar diversas actividades relacionadas con la programación. A pesar de estos impresionantes avances, un abismo considerable todavía separa las capacidades demostradas por estos modelos en entornos experimentales estáticos de las demandas siempre cambiantes de los escenarios de programación reales.

Los puntos de referencia de generación de código estándar prueban qué tan bien LLM puede generar código nuevo desde cero. Sin embargo, las convenciones de programación rara vez requieren la génesis de todos los componentes del código desde cero.

Al escribir código para aplicaciones del mundo real, utilizar bibliotecas existentes y disponibles públicamente es una práctica común. Estas bibliotecas desarrolladas ofrecen respuestas sólidas y probadas en batalla a diversos desafíos. Por lo tanto, el éxito de los LLM de código debe evaluarse en más formas que solo la producción de funciones, como su habilidad para ejecutar código derivado de bibliotecas de código abierto con el uso correcto de parámetros.

Un nuevo estudio realizado por la Universidad de Yale, la Universidad de Nanjing y la Universidad de Pekín presenta ML-BENCH, un conjunto de datos de referencia realista y completo para evaluar las capacidades de los LLM para comprender instrucciones de usuario, navegar por repositorios de GitHub y producir código ejecutable. ML-BENCH pone a disposición un código de verdad sobre el terreno instructable y de alta calidad que satisface los requisitos de las instrucciones. Hay 9.444 ejemplos, entre 130 tareas y 14 repositorios populares de aprendizaje automático de GitHub que componen ML-BENCH.

Los investigadores utilizan Pass@k y Parameter Hit Precision como métricas en sus investigaciones. Utilizando estas herramientas, exploran las posibilidades de GPT-3.5-16k, GPT-4-32k, Claude 2 y CodeLlama en entornos ML-BENCH. ML-BENCH sugiere nuevas pruebas para LLM. Los resultados empíricos muestran que los modelos GPT y Claude 2 superaron a CodeLlama por un amplio margen. Aunque GPT-4 muestra un aumento significativo en el rendimiento con respecto a otros LLM, todavía solo completa el 39,73% de las tareas en los experimentos. Otros LLms conocidos experimentan alucinaciones y tienen bajo rendimiento. Los hallazgos sugieren que los LLM deben hacer más que simplemente escribir código; también deben comprender documentación extensa. La contribución tecnológica clave es la propuesta de ML-AGENT, un agente de lenguaje autónomo diseñado para abordar las deficiencias descubiertas a través de su análisis de errores. Estos agentes pueden comprender el lenguaje y las instrucciones humanos, generar código eficiente y realizar tareas difíciles.

ML-Bench y ML-Agent representan un avance significativo en el estado del arte de los procesos automatizados de aprendizaje automático. Los investigadores esperan que esto interese tanto a otros investigadores como a profesionales.


Revisar la Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.