Screenshot 2024 06 21 At 10.59.06 Pm.png

código grandeentidad líder en el desarrollo de grandes modelos de lenguaje (LLM), ha anunciado el lanzamiento de Banco de código grandeun punto de referencia novedoso diseñado para evaluar rigurosamente las capacidades de programación de los LLM en tareas prácticas y desafiantes.

Abordar las limitaciones de los puntos de referencia actuales

Los puntos de referencia existentes como HumanEval han sido fundamentales en la evaluación de los LLM en tareas de generación de código, pero enfrentan críticas por su simplicidad y falta de aplicabilidad en el mundo real. HumanEval, que se centra en fragmentos de código compactos a nivel de función, no logra representar la complejidad y diversidad de las tareas de programación del mundo real. Además, cuestiones como la contaminación y el sobreajuste reducen la fiabilidad de la evaluación de la generalización de los LLM.

Presentamos BigCodeBench

BigCodeBench fue desarrollado para llenar este vacío. Contiene 1140 tareas a nivel de función que desafían a los LLM a seguir instrucciones orientadas al usuario y componer múltiples llamadas a funciones de 139 bibliotecas diversas. Cada tarea está meticulosamente diseñada para imitar escenarios del mundo real, lo que requiere razonamiento complejo y habilidades de resolución de problemas. Las tareas se validan aún más a través de un promedio de 5,6 casos de prueba por tarea, logrando una cobertura de sucursales del 99 % para garantizar una evaluación exhaustiva.

Componentes y capacidades

BigCodeBench se divide en dos componentes principales: BigCodeBench-Complete y BigCodeBench-Instruct. BigCodeBench-Complete se centra en la finalización del código, donde los LLM deben terminar de implementar una función basada en instrucciones detalladas de la cadena de documentación. Esto prueba la capacidad de los modelos para generar fragmentos de código funcionales y correctos a partir de información parcial.

BigCodeBench-Instruct, por otro lado, está diseñado para evaluar LLM ajustados por instrucción que siguen instrucciones en lenguaje natural. Este componente presenta un enfoque más conversacional para las descripciones de tareas, reflejando cómo los usuarios reales pueden interactuar con estos modelos en aplicaciones prácticas.

Marco de evaluación y tabla de clasificación

Para facilitar el proceso de evaluación, BigCode ha proporcionado un marco fácil de usar al que se puede acceder a través de PyPI, con instrucciones de configuración detalladas e imágenes Docker prediseñadas para la generación y ejecución de código. El rendimiento de los modelos en BigCodeBench se mide utilizando Pass@1 calibrado, una métrica que evalúa el porcentaje de tareas resueltas correctamente en el primer intento. Esta métrica se refina utilizando un sistema de clasificación Elo, similar al utilizado en el ajedrez, para clasificar los modelos en función de su desempeño en diversas tareas.

Participación comunitaria y desarrollos futuros

BigCode alienta a la comunidad de IA a interactuar con BigCodeBench brindando comentarios y contribuyendo a su desarrollo. Todos los artefactos relacionados con BigCodeBench, incluidas las tareas, los casos de prueba y el marco de evaluación, son de código abierto y están disponibles en plataformas como GitHub y Hugging Face. El equipo de BigCode planea mejorar continuamente BigCodeBench abordando el soporte multilingüe, aumentando el rigor de los casos de prueba y garantizando que el punto de referencia evolucione con los avances en las bibliotecas y herramientas de programación.

Conclusión

El lanzamiento de BigCodeBench marca un hito importante en la evaluación de LLM para tareas de programación. Al proporcionar un punto de referencia completo y desafiante, BigCode pretende ampliar los límites de lo que estos modelos pueden lograr y, en última instancia, impulsar el campo de la IA en el desarrollo de software.


Revisar la frecuencia cardíaca Blog, tabla de clasificación, y Código. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.