Los investigadores de Qwen presentan CodeElo: un punto de referencia de IA diseñado para evaluar las habilidades de codificación a nivel de competencia de los LLM utilizando calificaciones Elo comparables a las humanas

Los modelos de lenguajes grandes (LLM) han aportado avances significativos a las aplicaciones de IA, incluida la generación de código. Sin embargo, evaluar sus verdaderas capacidades no es sencillo. Los puntos de referencia existentes, como LiveCodeBench y USACO, tienen limitaciones. Carecen de casos de prueba privados sólidos, no admiten sistemas de evaluación especializados y, a menudo, trabajan con entornos de ejecución inconsistentes. Estas brechas dificultan la comparación justa del desempeño del LLM con el de los codificadores humanos. Un marco estandarizado que se alinee con los desafíos de programación del mundo real es esencial para evaluar de manera confiable las habilidades de razonamiento de los LLM.

Para abordar estos desafíos, el equipo de investigación de Qwen ha introducido CódigoEloun punto de referencia diseñado para evaluar las habilidades de codificación a nivel de competencia de los LLM utilizando calificaciones Elo comparables a las humanas. Los problemas de CodeElo provienen de CodeForces, una plataforma muy reconocida por sus rigurosos concursos de programación. Al enviar soluciones directamente a la plataforma CodeForces, CodeElo garantiza evaluaciones precisas. Aborda cuestiones como los falsos positivos y respalda problemas que requieren un criterio especial. Además, el sistema de calificación Elo del punto de referencia refleja las clasificaciones de desempeño humano, lo que permite comparaciones significativas entre los LLM y los participantes humanos. CodeElo ofrece una nueva forma de medir el desempeño de LLM en codificación competitiva.

Detalles técnicos y beneficios

CodeElo se basa en tres elementos clave: selección integral de problemas, métodos de evaluación sólidos y cálculos de calificación estandarizados. Los problemas se clasifican por divisiones del concurso, niveles de dificultad y etiquetas algorítmicas para proporcionar una evaluación exhaustiva. Los envíos se prueban en la plataforma CodeForces, lo que garantiza juicios precisos utilizando sus mecanismos de evaluación especiales. Este enfoque elimina la necesidad de casos de prueba ocultos y proporciona comentarios confiables. El sistema de calificación Elo evalúa la corrección, considera la dificultad del problema y penaliza los errores. Al incentivar soluciones de alta calidad, CodeElo ofrece una herramienta eficaz y matizada para evaluar modelos de codificación.

Resultados y conocimientos

Probar CodeElo en 30 LLM de código abierto y tres propietarios ha arrojado información valiosa. El modelo o1-mini de OpenAI tuvo el mejor desempeño, logrando una calificación Elo de 1578 y superando el 90% de los participantes humanos. Entre los modelos de código abierto, QwQ-32B-Preview tuvo el mejor desempeño con una puntuación de 1261. Sin embargo, muchos modelos tuvieron problemas con problemas más simples, ubicándose a menudo en el 20% inferior de los participantes humanos. Los análisis mostraron que los modelos sobresalieron en categorías como matemáticas e implementación, pero encontraron que la programación dinámica y los algoritmos de árbol eran más desafiantes. Además, los modelos funcionaron mejor al codificar en C++, una preferencia compartida por los programadores de la competencia. Estos resultados resaltan áreas donde los LLM necesitan mejorar.

Conclusión

CodeElo es un paso importante en la evaluación de las capacidades de codificación de los LLM. Al abordar las limitaciones de puntos de referencia anteriores, proporciona un marco confiable y estandarizado para evaluar la generación de código a nivel de competencia. Los conocimientos de CodeElo no sólo revelan las fortalezas y debilidades de los modelos actuales, sino que también guían el desarrollo futuro en la generación de código impulsada por IA. A medida que la IA continúa evolucionando, los puntos de referencia como CodeElo serán esenciales para ayudar a los LLM a enfrentar los desafíos de programación del mundo real de manera efectiva.

Verificar el Papel, Conjunto de datosy Tabla de clasificación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 Síguenos en X (Twitter) para recibir actualizaciones periódicas de investigación y desarrollo de IA aquí…

Los investigadores de Qwen presentan CodeElo: un punto de referencia de IA diseñado para evaluar las habilidades de codificación a nivel de competencia de los LLM utilizando calificaciones Elo comparables a las humanas

ByEquipo de 7 minutos

Detalles técnicos y beneficios

Resultados y conocimientos

Conclusión

By Equipo de 7 minutos

Related Post

Intenté programar mi canalización ETL. Esto es lo que no esperaba.

Liquid AI presenta LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M: modelos densos bicodificadores y de interacción tardía para búsquedas multilingües rápidas en 11 idiomas

El poder y los peligros de la búsqueda de imágenes basada en vectores

You missed

“¿Gallinas felices?” El colapso del cobertizo expone las mentiras de Vital Farms

Peligroso Hazard de Villamartín a punto de ser eliminado – El Líder

Un físico creó un ‘mini universo’ en el laboratorio para comprobar que el tiempo realmente existe: ScienceAlert

Los fabricantes de automóviles chinos compiten contra las nuevas normas de inversión de la UE