Cómo evaluar la relevancia y la clasificación de la búsqueda | de Akchay Srivastava

Métricas clave para optimizar tu motor de búsqueda

Foto por Markus Winkler en desempaquetar

Introducción
Precisión@K
Precisión media media (MAP)
Rango recíproco medio (MRR)
Ganancia acumulada descontada normalizada (NDCG)
Análisis comparativo
Resumen
Referencias

Descargo de responsabilidad: Las opiniones expresadas aquí son mías y no reflejan necesariamente las opiniones de mi empleador ni de ninguna otra organización. Todas las imágenes son del autor, excepto donde se indique.

Garantizar que los usuarios encuentren la información que necesitan de forma rápida y eficiente es fundamental para una experiencia de búsqueda exitosa. Cuando los usuarios encuentran lo que buscan de forma rápida y sin esfuerzo, se traduce en una experiencia positiva.

Además, la posición en el ranking de los resultados relevantes también juega un papel crucial: cuanto más altos aparecen, más valiosos son para el usuario. Esto se traduce en una mayor participación de los usuarios, conversiones y satisfacción general del sitio web.

Este artículo explora las métricas clave utilizadas para evaluar la relevancia y la clasificación de la búsqueda, lo que le permitirá optimizar su motor de búsqueda y ofrecer una experiencia de usuario superior.

Para demostrar el concepto de relevancia de búsqueda de forma práctica, consideremos un usuario que busca “platos de pasta” en un motor de búsqueda. Para simplificar, analizaremos los cinco resultados principales arrojados por el motor. Los resultados relevantes se indicarán en verde, mientras que los que se consideren irrelevantes se resaltarán en rojo (consulte la Figura 1). Usaremos la notación Rn para representar el enésimo resultado.

Figura 1: una lista ordenada de resultados de búsqueda

Precision@K mide cuántos resultados dentro de las K posiciones superiores son relevantes. Calculamos la precisión para diferentes valores de K, como se muestra en la Figura 2.

Precision@K = Número de resultados relevantes dentro de las K primeras posiciones / K

Precisión@1 = 1/1
Precisión@3 = 1/3
Precisión@5 = 2/5

MAP considera el orden de clasificación de los resultados relevantes.

En primer lugar, se calcula Precision@K para cada una de estas posiciones de resultados relevantes. Luego, la Precisión@K Promedio se obtiene sumando la Precisión@K para cada una de estas posiciones de resultados relevantes y dividiendo por el número total de importante elementos en los primeros K resultados. Para abreviar, ocasionalmente nos referiremos a la precisión promedio como AP en la discusión.

Para obtener una comprensión más profunda de cómo MAP evalúa la efectividad de la clasificación, exploremos ejemplos ilustrativos en tres consultas de búsqueda distintas. Estos ejemplos resaltarán cómo el orden en el que se presentan los resultados influye en la puntuación MAP.

Figura 3: Precision@K para cada resultado relevante para la Consulta 1

AP@5_Query_1 = (Precisión@1 + Precisión@3 + Precisión@5) / 3
AP@5_Query_1 = (1 + 0,67 + 0,6) / 3 = 0,76

Figura 4: Precision@K para cada resultado relevante para la Consulta 2

AP@5_Query_2 = (Precisión@1 + Precisión@2 + Precisión@5) / 3
AP@5_Query_2 = (1 + 1 + 0,6) / 3 = 0,87

Figura 5: Precision@K para cada resultado relevante para la Consulta 3

AP@5_Query_3 = (Precisión@3 + Precisión@4 + Precisión@5) / 3
AP@5_Query_3 = (0,33 + 0,5 + 0,6) / 3 = 0,47

Los resultados de la Consulta 2 exhiben la precisión promedio más alta@5, lo que indica que los elementos más relevantes se ubican al principio de la lista clasificada.

MAP = Media de la precisión promedio en todas las consultas del conjunto de datos.

MAP@5 = (AP@5_Query_1 + AP@5_Query_2 + AP@5_Query_3) / Número de consultas

MAP@5 del conjunto de datos = (0,76 + 0,87 + 0,47) / 3 = 0,7

Este cálculo trata todas las consultas como igualmente importantes. Sin embargo, si algunas consultas son más críticas, se pueden utilizar diferentes métodos de ponderación dentro del proceso MAP para priorizarlas.

MRR considera sólo el rango del primer resultado relevante encontrado en la lista.

K = Rango del primer resultado relevante
Puntuación recíproca = 1 / K

MRR es la puntuación recíproca promedio en múltiples consultas. Si no hay ningún resultado relevante, entonces el rango del primer resultado relevante se considera infinito. Por tanto, la puntuación recíproca pasa a ser 0.

Figura 6: Puntuación recíproca para cada consulta (en azul)

La puntuación recíproca de un resultado relevante es una función inversa de su rango.

MRR del conjunto de datos = (0,5 + 1 + 0,33) / 3 = 0,61

NDCG tiene en cuenta la relevancia graduada de los resultados. La relevancia de cada resultado está representada por una puntuación (también conocida como “calificación”). El valor de NDCG se determina comparando la relevancia de los resultados arrojados por un motor de búsqueda con la relevancia de los resultados que un El hipotético motor de búsqueda “ideal” regresaría.

Supongamos que tenemos una escala de relevancia/calificación de 1 a 5, siendo 5 la puntuación más alta y 1 la puntuación más baja. Buscamos “platos de pasta” y calificamos manualmente los resultados de la búsqueda proporcionándoles una puntuación de relevancia, como se muestra en la Figura 7. En nuestro ejemplo, R3 es el resultado más relevante, con una puntuación de 5.

Figura 7: Una lista ordenada de resultados de búsqueda con sus puntuaciones de relevancia

Ganancia acumulada@5 = 4 + 1 + 5 + 1 + 3 = 14
La ganancia acumulada no tiene en cuenta la clasificación.

Ganancia acumulada descontada@K = A descuento logarítmico Se aplica una función que ayuda a asignar una ganancia menor cuando los elementos relevantes aparecen más abajo en la lista clasificada, como se muestra en la Figura 8.

Donde rel(i) es la puntuación de relevancia del resultado en la posición i.

DCG@K = 4/1 + 1/1.585 + 5/2 + 1/2.322+ 3/2.585 = 8.72

El valor absoluto de DCG depende de la cantidad de resultados en la lista y de las puntuaciones de relevancia asignadas. Para solucionar esto, se puede normalizar DCG. Para obtener el DCG normalizado (NDCG), dividimos el DCG por el DCG ideal (IDCG) para el conjunto de resultados dado, como se muestra en la Figura 9. IDCG considera las mismas puntuaciones de relevancia, pero calcula el DCG asumiendo el mejor orden de clasificación absoluto para esos resultados. El mejor orden de clasificación para el ejemplo anterior sería: R3 → R1 → R5 → R2 → R4.

IDCG@K = 5/1 + 4/1.585 + 3/2 + 1/2.322 + 1/2.585 = 9.83

Figura 9: Fórmula NDCG@K

NDCG@K = 8,72/9,83 = 0,88

NDCG tiene en cuenta la relevancia graduada de los resultados, lo que proporciona una comprensión más matizada de la calidad del ranking de búsqueda.

Además de las métricas anteriores, el Coeficiente de correlación de Spearman y Distancia de Kendall Tau se puede emplear para evaluar la similitud de listas clasificadas. Para medir la participación de los usuarios, Tasa de clics (CTR) es una métrica clave que refleja el porcentaje de usuarios que han hecho clic en un resultado después de que se muestra. Para obtener más información sobre estas métricas, consulte los recursos de Wikipedia enumerados en la sección Referencias.

Foto por Alexander Schimmeck en desempaquetar

Después de explorar cuatro métricas distintas para la evaluación de la calidad de la búsqueda, realizamos un análisis comparativo para comprender las fortalezas y debilidades de cada enfoque. Esto nos lleva naturalmente a la pregunta crítica: ¿Qué métrica es más adecuada para evaluar la relevancia y la clasificación de los resultados de su motor de búsqueda? La selección de métricas óptima depende de sus requisitos específicos.

Para una comprensión integral de la calidad de su motor de búsqueda, a menudo es beneficioso considerar una combinación de estas métricas en lugar de depender de una sola medida.

Cómo evaluar la relevancia y la clasificación de la búsqueda | de Akchay Srivastava | mayo, 2024

ByEquipo de 7 minutos

Métricas clave para optimizar tu motor de búsqueda

By Equipo de 7 minutos

Related Post

Tutorial de Salesforce CodeGen: Generar, validar y reclasificar funciones de Python con pruebas unitarias y comprobaciones de seguridad

¿Qué tan poderoso es Claude Fable (Mythos) 5 para la codificación?

Perplexity lanza Brain, un sistema de memoria de mejora automática que crea un gráfico contextual del trabajo de un agente y aprende de la noche a la mañana

You missed

Un ‘tratamiento’ pseudocientífico contra el cáncer implica gasear con lejía a personas desnudas en bolsas de plástico

Se revela el acuerdo de divorcio de Bunnie Xo y Jelly Roll

Tutorial de Salesforce CodeGen: Generar, validar y reclasificar funciones de Python con pruebas unitarias y comprobaciones de seguridad

El terremoto de Japón de 2011 fue tan poderoso que cambió la ubicación de todo el país.