Screenshot 2024 05 27 At 8.45.25 Pm.png

Symflower ha introducido recientemente DevQualityEval, un marco y punto de referencia de evaluación innovador diseñado para elevar la calidad del código generado por modelos de lenguaje grandes (LLM). Esta versión permitirá a los desarrolladores evaluar y mejorar las capacidades de los LLM en escenarios de desarrollo de software del mundo real.

DevQualityEval ofrece un marco y un punto de referencia estandarizados que permiten a los desarrolladores medir y comparar el rendimiento de varios LLM en la generación de código de alta calidad. Esta herramienta es útil para evaluar la efectividad de los LLM en el manejo de tareas de programación complejas y generar casos de prueba confiables. Al proporcionar métricas y comparaciones detalladas, DevQualityEval tiene como objetivo guiar a los desarrolladores y usuarios de LLM en la selección de modelos adecuados para sus necesidades.

El marco aborda el desafío de evaluar la calidad del código de manera integral, considerando factores como el éxito de la compilación del código, la cobertura de las pruebas y la eficiencia del código generado. Este enfoque multifacético garantiza que el punto de referencia sea sólido y proporcione información significativa sobre el desempeño de diferentes LLM.

Las características clave de DevQualityEval incluyen las siguientes:

  • Evaluación estandarizada: DevQualityEval ofrece una forma coherente y repetible de evaluar los LLM, lo que facilita a los desarrolladores comparar diferentes modelos y realizar un seguimiento de las mejoras a lo largo del tiempo.
  • Enfoque de tareas del mundo real: El punto de referencia incluye tareas representativas de los desafíos de programación del mundo real. Esto incluye generar pruebas unitarias para varios lenguajes de programación y garantizar que los modelos se prueben en escenarios prácticos y relevantes.
  • Métricas detalladas: El marco proporciona métricas detalladas, como tasas de compilación de código, porcentajes de cobertura de pruebas y evaluaciones cualitativas del estilo y la corrección del código. Estas métricas ayudan a los desarrolladores a comprender las fortalezas y debilidades de los diferentes LLM.
  • Extensibilidad: DevQualityEval está diseñado para ser extensible, lo que permite a los desarrolladores agregar nuevas tareas, idiomas y criterios de evaluación. Esta flexibilidad garantiza que el punto de referencia pueda evolucionar junto con los avances en la inteligencia artificial y el desarrollo de software.

Instalación y uso

Configurar DevQualityEval es sencillo. Los desarrolladores deben instalar Git and Go, clonar el repositorio y ejecutar los comandos de instalación. Luego, el punto de referencia se puede ejecutar utilizando el binario ‘eval-dev-quality’, que genera registros detallados y resultados de evaluación.

## shell
git clone https://github.com/symflower/eval-dev-quality.git
cd eval-dev-quality
go install -v github.com/symflower/eval-dev-quality/cmd/eval-dev-quality

Los desarrolladores pueden especificar qué modelos evaluar y obtener informes completos en formatos como CSV y Markdown. Actualmente, el marco admite openrouter.ai como proveedor de LLM, con planes de ampliar el soporte a proveedores adicionales.

DevQualityEval evalúa modelos en función de su capacidad para resolver tareas de programación de forma precisa y eficiente. Se otorgan puntos por varios criterios, incluida la ausencia de errores de respuesta, la presencia de código ejecutable y lograr una cobertura de prueba del 100%. Por ejemplo, generar un conjunto de pruebas que compile y cubra todas las declaraciones del código produce puntuaciones más altas.

El marco también considera la eficiencia de los modelos con respecto al uso de tokens y la relevancia de la respuesta, penalizando los modelos que producen resultados detallados o irrelevantes. Este enfoque en el rendimiento práctico hace que DevQualityEval sea una herramienta valiosa para los desarrolladores y usuarios de modelos que buscan implementar LLM en entornos de producción.

Uno de los aspectos más destacados de DevQualityEval es su capacidad para proporcionar información comparativa sobre el desempeño de los principales LLM. Por ejemplo, evaluaciones recientes han demostrado que, si bien el GPT-4 Turbo ofrece capacidades superiores, el Llama-3 70B es significativamente más rentable. Estos conocimientos ayudan a los usuarios a tomar decisiones informadas en función de sus requisitos y limitaciones presupuestarias.

En conclusión, DevQualityEval de Symflower está preparado para convertirse en una herramienta esencial para los desarrolladores de IA e ingenieros de software. Proporcionar un marco riguroso y extensible para evaluar la calidad de la generación de código permite a la comunidad ampliar los límites de lo que los LLM pueden lograr en el desarrollo de software.


Revisar la página de GitHub y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.