FACTS Benchmark Suite: una nueva forma de evaluar sistemáticamente la factibilidad de los LLM

Los modelos de lenguajes grandes (LLM) se están convirtiendo cada vez más en una fuente principal para la entrega de información en diversos casos de uso, por lo que es importante que sus respuestas sean objetivamente precisas.

Para continuar mejorando su desempeño en este desafío que afecta a toda la industria, debemos comprender mejor los tipos de casos de uso en los que los modelos luchan por brindar una respuesta precisa y medir mejor el desempeño factual en esas áreas.

La suite de referencia FACTS

Hoy, nos asociamos con Kaggle para presentar FACTS Benchmark Suite. Amplía nuestro trabajo anterior en el desarrollo del FACTS Grounding Benchmark, con tres puntos de referencia de factibilidad adicionales, que incluyen:

Un punto de referencia paramétrico que mide la capacidad del modelo para acceder a su conocimiento interno con precisión en casos de uso de preguntas factoides. Un punto de referencia de búsqueda que prueba la capacidad de un modelo para usar la búsqueda como herramienta para recuperar información y sintetizarla correctamente. Un punto de referencia multimodal que prueba la capacidad de un modelo para responder solicitudes relacionadas con imágenes de entrada de una manera factualmente correcta.

También estamos actualizando el punto de referencia de conexión a tierra original de FACTS con Grounding Benchmark – v2, un punto de referencia extendido para probar la capacidad de un modelo para proporcionar respuestas basadas en el contexto de una pregunta determinada.

Cada punto de referencia fue cuidadosamente seleccionado para producir un total de 3513 ejemplos, que hoy ponemos a disposición del público. Al igual que en nuestra versión anterior, seguimos la práctica estándar de la industria y mantenemos un conjunto de evaluación como privado. La puntuación de FACTS Benchmark Suite (o puntuación FACTS) se calcula como la precisión promedio de los conjuntos públicos y privados en los cuatro puntos de referencia. Kaggle supervisará la gestión de FACTS Benchmark Suite. Esto incluye ser propietario de los conjuntos privados, probar los LLM líderes en los puntos de referencia y alojar los resultados en una tabla de clasificación pública. Puede encontrar más detalles sobre la metodología de evaluación FACTS en nuestro informe técnico.

Descripción general del punto de referencia

Punto de referencia paramétrico

El punto de referencia FACTS Parametric evalúa la capacidad de los modelos para responder con precisión preguntas fácticas, sin la ayuda de herramientas externas como la búsqueda web. Todas las preguntas del punto de referencia son preguntas de “estilo trivia” impulsadas por el interés del usuario que se pueden responder a través de Wikipedia (una fuente estándar para la formación previa de LLM). El punto de referencia resultante consta de un conjunto público de 1052 elementos y un conjunto privado de 1052 elementos.

FACTS Benchmark Suite: una nueva forma de evaluar sistemáticamente la factibilidad de los LLM

ByEquipo de 7 minutos

La suite de referencia FACTS

Descripción general del punto de referencia

Punto de referencia paramétrico

By Equipo de 7 minutos

Related Post

Xiaomi lanza MiMo-V2.5-Pro y MiMo-V2.5: igualando los puntos de referencia del modelo Frontier a un costo simbólico significativamente menor

Desde indicaciones ad hoc hasta flujos de trabajo de IA repetibles con Claude Code Skills

Enseñar a los modelos de IA a decir “No estoy seguro” | Noticias del MIT

You missed

Mientras ‘Star Fox Zero’ cumple 10 años, he aquí por qué la serie de disparos sobre rieles de ciencia ficción merece un regreso

Juicio de Kitchen por la trama de corrupción policial vinculada al PP

La apuesta de Microsoft por la IA de 18.000 millones de dólares en Australia: lo que Europa debería notar

Advertencia de tarifas aéreas más altas para Mallorca durante el verano