Los puntos de referencia actuales de IA están luchando para mantener el ritmo de los modelos modernos. Tan útiles como son para medir el rendimiento del modelo en tareas específicas, puede ser difícil saber si los modelos entrenados en los datos de Internet realmente están resolviendo problemas o simplemente recordando las respuestas que ya han visto. A medida que los modelos se acercan al 100% en ciertos puntos de referencia, también se vuelven menos efectivos para revelar diferencias de rendimiento significativas. Continuamos invirtiendo en puntos de referencia nuevos y más desafiantes, pero en el camino hacia la inteligencia general, debemos continuar buscando nuevas formas de evaluar. El cambio más reciente hacia las pruebas dinámicas y juzgadas por los humanos resuelve estos problemas de memorización y saturación, pero a su vez, crea nuevas dificultades derivadas de la subjetividad inherente de las preferencias humanas.
Si bien continuamos evolucionando y persiguiendo los puntos de referencia actuales de AI, también estamos buscando constantemente probar nuevos enfoques para evaluar los modelos. Por eso hoy, estamos presentando el Kaggle Game Arena: Una nueva plataforma de evaluación comparativa pública de IA donde los modelos de IA compiten cara a cara en juegos estratégicos, proporcionando una medida verificable y dinámica de sus capacidades.