Como se indicó en el descargo de responsabilidad anterior, para comprender adecuadamente cómo se desempeñan los LLM en las tareas de codificación, es recomendable evaluarlos desde múltiples perspectivas.

Evaluación comparativa a través de HumanEval

Inicialmente, intenté agregar resultados de varios puntos de referencia para ver qué modelo ocupa el primer lugar. Sin embargo, este enfoque tenía un problema central: diferentes modelos utilizan diferentes puntos de referencia y configuraciones. Sólo un punto de referencia parecía ser el predeterminado para evaluar el rendimiento de la codificación: evaluación humana. Se trata de un conjunto de datos de referencia que consta de problemas de codificación escritos por humanos y que evalúa la capacidad de un modelo para generar código correcto y funcional en función de requisitos específicos. Al evaluar la finalización del código y las habilidades de resolución de problemas, HumanEval sirve como una medida estándar para la competencia en codificación en los LLM.

La voz del pueblo a través de las partituras de Elo

Si bien los puntos de referencia brindan una buena visión del desempeño de un modelo, también deben tomarse con cautela. Dada la gran cantidad de datos con los que se capacita a los LLM, parte del contenido de un punto de referencia (o contenido muy similar) podría ser parte de esa capacitación. Por eso es beneficioso evaluar también los modelos en función de su rendimiento según lo juzgan los humanos. Clasificaciones Elo, como las de Chatbot Arena (solo codificación)haz precisamente eso. Estas son puntuaciones derivadas de comparaciones directas de LLM en tareas de codificación, evaluadas por jueces humanos. Los modelos se enfrentan entre sí y sus puntuaciones Elo se ajustan en función de las victorias y derrotas en estos partidos por parejas. Una puntuación Elo muestra el rendimiento relativo de un modelo en comparación con otros del grupo, y las puntuaciones más altas indican un mejor rendimiento. Por ejemplo, una diferencia de 100 puntos Elo sugiere que se espera que el modelo con mayor calificación gane aproximadamente el 64% de las veces frente al modelo con menor calificación.

Estado actual del rendimiento del modelo.

Ahora, examinemos cómo se desempeñan estos modelos cuando comparamos sus puntajes HumanEval con sus calificaciones Elo. La siguiente imagen ilustra el panorama actual de codificación para LLM, donde los modelos están agrupados por las empresas que los crearon. Se anota el modelo con mejor rendimiento de cada empresa.

Figura 1: Puntuación Elo según HumanEval, coloreada por empresa. Las marcas de los ejes X e Y muestran todos los modelos lanzados por cada empresa, y el modelo con mejor rendimiento se muestra en negrita.

Los modelos de OpenAI están en la cima de ambas métricas, lo que demuestra su capacidad superior para resolver tareas de codificación. El mejor modelo OpenAI supera al mejor modelo que no es OpenAI: Anthropic Soneto de Claudio 3.5 – por 46 puntos Elo, con una tasa de ganancia esperada del 56,6 % en tareas de codificación directas y una diferencia del 3,9 % en HumanEval. Si bien esta diferencia no es abrumadora, muestra que OpenAI todavía tiene la ventaja. Curiosamente, el mejor modelo es o1-minique obtiene una puntuación más alta que el mayor o1 por 10 puntos Elo y 2,5% en HumanEval.

Conclusión: OpenAI continúa dominando, posicionándose en la cima en rendimiento de referencia y uso en el mundo real. Sorprendentemente, o1-mini es el modelo con mejor rendimiento, superando a su homólogo más grande, o1.

Otras empresas le siguen de cerca y parecen existir dentro del mismo “campo de rendimiento”. Para proporcionar una idea más clara de la diferencia en el rendimiento del modelo, la siguiente figura muestra las probabilidades de ganar del mejor modelo de cada empresa, como lo indica su calificación Elo.

Figura 2: Probabilidad de ganar del mejor modelo (codificación) de cada empresa, como lo ilustran las probabilidades de ganar batallas cara a cara de las calificaciones Elo.

Por automata