La muerte del punto de referencia de la IA estática |  de Sandi Besen |  marzo de 2024

Evaluación comparativa como medida de éxito

Los puntos de referencia suelen ser aclamados como un sello de éxito. Son una forma famosa de medir el progreso, ya sea alcanzar la milla en menos de 4 minutos o la capacidad de sobresalir en exámenes estandarizados. En el contexto de la Inteligencia Artificial (IA), los puntos de referencia son el método más común para evaluar la capacidad de un modelo. Líderes de la industria como OpenAI, Anthropic, Meta, Google, etc. compiten en una carrera para superarse entre sí con puntuaciones de referencia superiores. Sin embargo, estudios de investigación recientes y quejas de la industria están arrojando dudas sobre si los puntos de referencia comunes realmente capturan la esencia de la capacidad de un modelo.

Fuente: Dalle 3

Las investigaciones emergentes apuntan a la probabilidad de que los conjuntos de entrenamiento de algunos modelos hayan sido contaminados con los mismos datos con los que se están evaluando, lo que genera dudas sobre la autenticidad de sus puntuaciones de referencia que reflejan una comprensión verdadera. Al igual que en las películas donde los actores pueden interpretar a médicos o científicos, pronuncian las líneas sin comprender realmente los conceptos subyacentes. Cuando Cillian Murphy interpretó al famoso físico J. Robert Oppenheimer en la película Oppenheimer, probablemente no entendió las complejas teorías físicas de las que hablaba. Aunque los puntos de referencia están destinados a evaluar las capacidades de un modelo, ¿realmente lo hacen si, como actor, el modelo las ha memorizado?

Hallazgos recientes de la Universidad de Arizona han descubierto que GPT-4 está contaminado con conjuntos de datos AG News, WNLI y XSum que desacreditan sus puntos de referencia asociados.[1]. Además, investigadores de la Universidad de Ciencia y Tecnología de China descubrieron que cuando implementaron su técnica de “sondeo” en el popular MMLU Benchmark [2]los resultados disminuyeron dramáticamente.

Sus técnicas de sondeo incluían una serie de métodos destinados a desafiar la comprensión del modelo de la pregunta cuando se plantea de diferentes maneras con diferentes opciones de respuesta, pero la misma respuesta correcta. Los ejemplos de las técnicas de sondeo consistieron en: parafrasear preguntas, parafrasear opciones, permutar opciones, agregar contexto adicional a las preguntas y agregar una nueva opción a las preguntas de referencia.

Del gráfico a continuación, se puede deducir que, aunque cada modelo probado tuvo un buen desempeño en el punto de referencia MMLU “vainilla” inalterado, cuando se agregaron técnicas de sondeo a diferentes secciones del punto de referencia (LU, PS, DK, Todos) no tuvieron un desempeño tan fuerte. .

“Vanilla” representa el rendimiento en el punto de referencia MMLU inalterado. Las otras claves representan el rendimiento en las secciones modificadas del punto de referencia MMLU: comprensión del lenguaje (LU), resolución de problemas (PS), conocimiento del dominio (DK), todo

Esta situación en evolución provoca una reevaluación de cómo se evalúan los modelos de IA. Se está volviendo evidente la necesidad de puntos de referencia que demuestren de manera confiable las capacidades y anticipen los problemas de contaminación y memorización de datos.

A medida que los modelos continúan evolucionando y se actualizan para incluir potencialmente datos de referencia en sus conjuntos de entrenamiento, los puntos de referencia tendrán una vida útil inherentemente corta. Además, las ventanas de contexto del modelo están aumentando rápidamente, lo que permite incluir una mayor cantidad de contexto en la respuesta del modelo. Cuanto mayor sea la ventana de contexto, mayor será el impacto potencial de que los datos contaminados sesguen indirectamente el proceso de aprendizaje del modelo, haciéndolo sesgado hacia los ejemplos de prueba vistos.

Para abordar estos desafíos, están surgiendo enfoques innovadores, como los puntos de referencia dinámicos, que emplean tácticas como: alterar preguntas, complicar preguntas, introducir ruido en la pregunta, parafrasear la pregunta, invertir la polaridad de la pregunta y más. [3].

El siguiente ejemplo proporciona un ejemplo de varios métodos para modificar las preguntas de referencia (ya sea manualmente o mediante un modelo de lenguaje generado).

Fuente: Benchmark Self-Evolving: un marco de agentes múltiples para la evaluación dinámica de LLM

A medida que avanzamos, se hace evidente la necesidad de alinear más estrechamente los métodos de evaluación con las aplicaciones del mundo real. Establecer puntos de referencia que reflejen con precisión las tareas y desafíos prácticos no solo proporcionará una medida más real de las capacidades de la IA, sino que también guiará el desarrollo de modelos de lenguaje pequeño (SLM) y agentes de IA. Estos modelos y agentes especializados requieren puntos de referencia que realmente capturen su potencial para realizar tareas prácticas y útiles.