CodeEditorBench: un sistema de aprendizaje automático para evaluar la eficacia de modelos de lenguaje grandes (LLM) en actividades de edición de código

Los trabajos relacionados con la codificación han llevado al rápido avance de los modelos de lenguajes grandes (LLM), con un enfoque en la edición de código. Los LLM creados específicamente para trabajos de codificación se aplican a una variedad de actividades, incluida la optimización y reparación de código. Como herramientas de programación, se están volviendo cada vez más populares, pero la mayoría de las técnicas de evaluación se concentran en la producción de código, ignorando el papel crucial que desempeña la edición de código en el desarrollo de software.

En una investigación reciente, un equipo de investigadores de la Comunidad de Investigación de Proyección de Arte Multimodal, la Universidad de Waterloo, HKUST, la Universidad de Manchester, la Universidad Tongji y el Instituto Vector han presentado CodeEditorBench, un sistema de evaluación que ha sido diseñado para evaluar la efectividad de los LLM en un gama de actividades de edición de código, como cambio de requisitos, depuración, traducción y pulido.

A diferencia de otros puntos de referencia que se concentran principalmente en la creación de código, CodeEditorBench enfatiza las aplicaciones del mundo real y los elementos pragmáticos del desarrollo de software. El equipo ha seleccionado una variedad de escenarios y desafíos de codificación de cinco fuentes distintas, que cubren un amplio espectro de lenguajes de programación, grados de dificultad y tareas de edición. Al hacer esto, se han asegurado de que la evaluación tenga en cuenta la variedad y complejidad de las dificultades que se encuentran en los entornos de codificación reales.

El equipo encontró algunas tendencias intrigantes en su revisión, que incluyó 19 LLM distintos. En el marco CodeEditorBench, los modelos de código cerrado, específicamente Gemini-Ultra y GPT-4, han demostrado un mejor rendimiento que los modelos de código abierto. Esto enfatiza la importancia de la arquitectura del modelo y los datos de entrenamiento para decidir el rendimiento, particularmente cuando se varían la sensibilidad de las solicitudes y las categorías de problemas.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

El objetivo de CodeEditorBench es ofrecer un enfoque uniforme para evaluar los LLM. En este marco se han incluido herramientas para análisis, capacitación y visualización adicionales. Para promover una mayor investigación sobre las funciones de LLM, el equipo ha compartido que todos los datos relacionados con la evaluación serán accesibles abiertamente. Para mejorar la exhaustividad de la evaluación, se agregarán más medidas de evaluación en el futuro.

El objetivo principal es mapear el estado actual de los LLM. OpenCIDS-33B es el modelo base más eficaz disponible para el público, seguido de OpenCI-DS-6.7B y DS-33B-INST. Los modelos como Gemini, GPT y GLM que no son de acceso público suelen funcionar mejor que los que sí lo son. OpenCIDS-33B y DS-33B-INST, dos modelos ajustados por instrucciones con más de 30 mil millones de parámetros, cierran esta diferencia de rendimiento.

El objetivo de CodeEditorBench es llamar la atención sobre las deficiencias de los LLM, especialmente cuando se trata de reescribir y revisar código. Aunque funciona admirablemente en tres de las cuatro categorías, las capacidades de pulido de código de GPT4 son notablemente deficientes. De manera similar, Gemini Ultra no está a la altura del desafío de cambiar los requisitos del código. El equipo ha reconocido estas limitaciones para abordar estos problemas particulares en la formación y el desarrollo de LLM.

En conclusión, el principal objetivo de CodeEditorBench es impulsar avances en los LLM proporcionando una plataforma sólida para evaluar exhaustivamente las capacidades de edición de código.

Revisar la Papel, Proyectoy Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 40.000 ml

[1/n]
🚀🚀🚀 ¡Estoy emocionado de compartir nuestro último trabajo: “CodeEditorBench: evaluación de la capacidad de edición de código de modelos de lenguaje grandes”! https://t.co/GckeztzIbT

### 🧐 Aspectos destacados de CodeEditorBench:
> Preguntas de edición de código 8K recopiladas meticulosamente de cinco fuentes: a saber… pic.twitter.com/BUaN6v99BM

—Ge Zhang (@GeZhang86038849) 5 de abril de 2024

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

CodeEditorBench: un sistema de aprendizaje automático para evaluar la eficacia de modelos de lenguaje grandes (LLM) en actividades de edición de código

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

LightSeek Foundation lanza TokenSpeed, un motor de inferencia LLM de código abierto dirigido al rendimiento de nivel TensorRT-LLM para cargas de trabajo agentes

OpenAI presenta MRC (conexión confiable de múltiples rutas): un nuevo protocolo de red abierto para clústeres de capacitación de supercomputadoras de IA a gran escala

Dale a tu IA un contexto actualizado ilimitado

You missed

Los evacuados por hantavirus llegan a los Países Bajos para recibir tratamiento hospitalario « Euro Weekly News

La chef Marilyn Cole dice que lo perdió todo en un negocio

LightSeek Foundation lanza TokenSpeed, un motor de inferencia LLM de código abierto dirigido al rendimiento de nivel TensorRT-LLM para cargas de trabajo agentes

Un extraño asteroide “decapitado” probablemente formó el cráter de impacto más grande de la luna. Los astronautas Artemis de la NASA pueden aterrizar cerca de la prueba