durante casi una década y a menudo me preguntan: “¿Cómo sabemos si nuestra configuración actual de IA está optimizada?” ¿La respuesta honesta? Muchas pruebas. Los puntos de referencia claros le permiten medir las mejoras, comparar proveedores y justificar el retorno de la inversión.
La mayoría de los equipos evalúan la búsqueda de IA ejecutando un puñado de consultas y eligiendo el sistema que “se siente” mejor. Luego pasan seis meses integrándolo, sólo para descubrir que la precisión es en realidad peor que la de su configuración anterior. He aquí cómo evitar ese error de 500.000 dólares.
El problema: las pruebas ad hoc no reflejan el comportamiento de producción, no son replicables y los puntos de referencia corporativos no están personalizados para su caso de uso. Los puntos de referencia eficaces se adaptan a su dominio, cubren diferentes tipos de consultas, producen resultados consistentes y tienen en cuenta los desacuerdos entre los evaluadores. Después de años de investigación sobre la evaluación de la calidad de las búsquedas, este es el proceso que realmente funciona en producción.
Un estándar de evaluación de referencia
Paso 1: Defina qué significa “bueno” para su caso de uso
Antes incluso de ejecutar una sola consulta de prueba, especifique cómo es una respuesta “correcta”. Los rasgos comunes incluyen la precisión de la línea de base, la actualidad de los resultados y la relevancia de las fuentes.
Para un cliente de servicios financieros, esto puede ser: “Los datos numéricos deben tener una precisión del 0,1% de las fuentes oficiales, citadas con marcas de tiempo de publicación”. Para una empresa de herramientas de desarrollo: “Los ejemplos de código deben ejecutarse sin modificaciones en la versión del idioma especificado”.
A partir de ahí, documente su umbral para cambiar de proveedor. En lugar de una “mejora del 5-15 %” arbitraria, vincúlelo al impacto en el negocio: si una mejora de la precisión del 1 % le ahorra a su equipo de soporte 40 horas al mes y el cambio cuesta $10 000 en tiempo de ingeniería, se equilibra con una mejora del 2,5 % en el primer mes.
Paso 2: construye tu conjunto de prueba dorado
Un conjunto dorado es una colección seleccionada de consultas y respuestas que hace que su organización esté en sintonía con respecto a la calidad. Comience a generar estas consultas consultando sus registros de consultas de producción. Recomiendo llenar su conjunto dorado con el 80% de consultas dedicadas a patrones comunes y el 20% restante a casos extremos. Para el tamaño de la muestra, intente realizar entre 100 y 200 consultas como mínimo; esto produce intervalos de confianza de ±2-3%, lo suficientemente ajustados como para detectar diferencias significativas entre proveedores.
A partir de ahí, desarrolle una rúbrica de calificación para evaluar la precisión de cada consulta. Para consultas objetivas, defino: “Califique 4 si el resultado contiene la respuesta exacta con una cita autorizada. Califique 3 si es correcto, pero requiere inferencia del usuario. Califique 2 si es parcialmente relevante. Califique 1 si está relacionado tangencialmente. Califique 0 si no está relacionado”. Incluya entre 5 y 10 consultas de ejemplo con resultados puntuados para cada categoría.
Una vez que haya establecido esa lista, haga que dos expertos en el dominio etiqueten de forma independiente los 10 resultados principales de cada consulta y midan la concordancia con el Kappa de Cohen. Si está por debajo de 0,60, puede haber múltiples problemas, como criterios poco claros, capacitación inadecuada o diferencias de criterio, que deben abordarse. Al realizar revisiones, utilice un registro de cambios para capturar nuevas versiones para cada rúbrica de puntuación. Querrá mantener versiones distintas para cada prueba para poder reproducirlas en pruebas posteriores.
Paso 3: Ejecute comparaciones controladas
Ahora que tiene su lista de consultas de prueba y una rúbrica clara para medir la precisión, ejecute su conjunto de consultas en todos los proveedores en paralelo y recopile los 10 resultados principales, incluida la posición, el título, el fragmento, la URL y la marca de tiempo. También debe registrar la latencia de las consultas, los códigos de estado HTTP, las versiones de API y el recuento de resultados.
Para canalizaciones RAG o pruebas de búsqueda agente, pase cada resultado a través de los mismos LLM con indicaciones de síntesis idénticas con la temperatura establecida en 0 (ya que está aislando la calidad de la búsqueda).
La mayoría de las evaluaciones fallan porque solo ejecutan cada consulta una vez. Los sistemas de búsqueda son inherentemente estocásticos, por lo que la aleatoriedad del muestreo, la variabilidad de la API y el comportamiento del tiempo de espera introducen variaciones entre pruebas. Para medir esto correctamente, ejecute varias pruebas por consulta (recomiendo comenzar con n=8-16 pruebas para tareas de recuperación estructuradas, n≥32 para tareas de razonamiento complejas).
Paso 4: evaluar con jueces de LLM
Los LLM modernos tienen una capacidad de razonamiento significativamente mayor que los sistemas de búsqueda. Los motores de búsqueda utilizan pequeños reclasificadores optimizados para una latencia de milisegundos, mientras que los LLM utilizan más de 100 mil millones de parámetros con segundos para razonar según el juicio. Esta asimetría de capacidades significa que los LLM pueden juzgar la calidad de los resultados de manera más exhaustiva que los sistemas que los produjeron.
Sin embargo, este análisis solo funciona si equipa al LLM con un mensaje de puntuación detallado que utiliza la misma rúbrica que los evaluadores humanos. Proporcione consultas de ejemplo con resultados puntuados a modo de demostración y requiera una salida JSON estructurada con una puntuación de relevancia (0-4) y una breve explicación por resultado.
Al mismo tiempo, ejecute un juez de LLM y haga que dos expertos humanos califiquen un subconjunto de validación de 100 consultas que cubra consultas fáciles, medianas y difíciles. Una vez hecho esto, calcule el acuerdo entre humanos utilizando Kappa de Cohen (objetivo: κ > 0,70) y correlación de Pearson (objetivo: r > 0,80). He visto a Claude Sonnet lograr un acuerdo de 0,84 con evaluadores expertos cuando la rúbrica está bien especificada.
Paso 5: Mida la estabilidad de la evaluación con ICC
La precisión por sí sola no le dice si su evaluación es confiable. También necesita saber si la variación que está viendo entre los resultados de búsqueda refleja diferencias genuinas en la dificultad de la consulta o simplemente ruido aleatorio debido al comportamiento inconsistente del proveedor de modelos.
El coeficiente de correlación intraclase (ICC) divide la varianza en dos grupos: varianza entre consultas (algunas consultas son simplemente más difíciles que otras) y varianza dentro de la consulta (resultados inconsistentes para la misma consulta en varias ejecuciones).
A continuación se explica cómo interpretar la ICC al examinar a los proveedores de búsqueda de IA:
ICC ≥ 0,75: Buena fiabilidad. Las respuestas de los proveedores son consistentes. ICC = 0,50-0,75: Fiabilidad moderada. Contribución mixta por dificultad de consulta e inconsistencia del proveedor. ICC < 0,50: Fiabilidad deficiente. Los resultados de una sola ejecución no son confiables.
Considere dos proveedores, ambos logrando un 73% de precisión:
Sin ICC, implementaría el segundo proveedor, pensando que está obteniendo un 73 % de precisión, solo para descubrir problemas de confiabilidad en la producción.
En nuestra investigación que evaluó a los proveedores en GAIA (tareas de razonamiento) y FRAMES (tareas de recuperación), encontramos que el ICC varía dramáticamente con la complejidad de la tarea, desde 0,30 para razonamiento complejo con modelos menos capaces hasta 0,71 para recuperación estructurada. A menudo, las mejoras en la precisión sin mejoras en el ICC reflejaban un muestreo afortunado en lugar de ganancias genuinas de capacidad.
Cómo se ve realmente el éxito
Con esa validación implementada, puede evaluar a los proveedores en todo su conjunto de pruebas. Los resultados podrían verse así:
Proveedor A: 81,2% ± 2,1% de precisión (IC 95%: 79,1-83,3%), ICC=0,68 Proveedor B: 78,9% ± 2,8% de precisión (IC 95%: 76,1-81,7%), ICC=0,71
Los intervalos no se superponen, por lo que la ventaja de precisión del Proveedor A es estadísticamente significativa en p<0,05. Sin embargo, el ICC más alto del Proveedor B significa que es más consistente: la misma consulta, resultados más predecibles. Dependiendo de su caso de uso, la coherencia puede importar más que la diferencia de precisión de 2,3 pp.
Proveedor C: 83,1% ± 4,8% de precisión (IC 95%: 78,3-87,9%), ICC=0,42 Proveedor D: 79,8% ± 4,2% de precisión (IC 95%: 75,6-84,0%), ICC=0,39
El proveedor C parece mejor, pero esos amplios intervalos de confianza se superponen sustancialmente. Lo más importante es que ambos proveedores tienen un ICC < 0,50, lo que indica que la mayor variación se debe a la aleatoriedad entre ensayos y no a la dificultad de la consulta. Cuando ve una variación como esta, su propia metodología de evaluación necesita ser depurada antes de que pueda confiar en la comparación.
Esta no es la única forma de evaluar la calidad de la búsqueda, pero creo que es una de las más efectivas para equilibrar la precisión con la viabilidad. Este marco ofrece resultados reproducibles que predicen el rendimiento de la producción, lo que le permite comparar proveedores en igualdad de condiciones.
En este momento, estamos en una etapa en la que dependemos de demostraciones cuidadosamente seleccionadas y la mayoría de las comparaciones de proveedores no tienen sentido porque cada uno mide de manera diferente. Si está tomando decisiones millonarias sobre la infraestructura de búsqueda, le debe a su equipo medirlas adecuadamente.