Los modelos de lenguajes grandes (LLM) se están convirtiendo cada vez más en una fuente principal para la entrega de información en diversos casos de uso, por lo que es importante que sus respuestas sean objetivamente precisas.
Para continuar mejorando su desempeño en este desafío que afecta a toda la industria, debemos comprender mejor los tipos de casos de uso en los que los modelos luchan por brindar una respuesta precisa y medir mejor el desempeño factual en esas áreas.
La suite de referencia FACTS
Hoy, nos asociamos con Kaggle para presentar FACTS Benchmark Suite. Amplía nuestro trabajo anterior en el desarrollo del FACTS Grounding Benchmark, con tres puntos de referencia de factibilidad adicionales, que incluyen:
Un punto de referencia paramétrico que mide la capacidad del modelo para acceder a su conocimiento interno con precisión en casos de uso de preguntas factoides. Un punto de referencia de búsqueda que prueba la capacidad de un modelo para usar la búsqueda como herramienta para recuperar información y sintetizarla correctamente. Un punto de referencia multimodal que prueba la capacidad de un modelo para responder solicitudes relacionadas con imágenes de entrada de una manera factualmente correcta.
También estamos actualizando el punto de referencia de conexión a tierra original de FACTS con Grounding Benchmark – v2, un punto de referencia extendido para probar la capacidad de un modelo para proporcionar respuestas basadas en el contexto de una pregunta determinada.
Cada punto de referencia fue cuidadosamente seleccionado para producir un total de 3513 ejemplos, que hoy ponemos a disposición del público. Al igual que en nuestra versión anterior, seguimos la práctica estándar de la industria y mantenemos un conjunto de evaluación como privado. La puntuación de FACTS Benchmark Suite (o puntuación FACTS) se calcula como la precisión promedio de los conjuntos públicos y privados en los cuatro puntos de referencia. Kaggle supervisará la gestión de FACTS Benchmark Suite. Esto incluye ser propietario de los conjuntos privados, probar los LLM líderes en los puntos de referencia y alojar los resultados en una tabla de clasificación pública. Puede encontrar más detalles sobre la metodología de evaluación FACTS en nuestro informe técnico.
Descripción general del punto de referencia
Punto de referencia paramétrico
El punto de referencia FACTS Parametric evalúa la capacidad de los modelos para responder con precisión preguntas fácticas, sin la ayuda de herramientas externas como la búsqueda web. Todas las preguntas del punto de referencia son preguntas de “estilo trivia” impulsadas por el interés del usuario que se pueden responder a través de Wikipedia (una fuente estándar para la formación previa de LLM). El punto de referencia resultante consta de un conjunto público de 1052 elementos y un conjunto privado de 1052 elementos.