Engaño métrico: cuando sus mejores KPI ocultan sus peores fallas

de paneles verdes

Las métricas ponen orden en el caos, o al menos eso es lo que suponemos. Resume el comportamiento multidimensional en señales consumibles, los clics en conversiones, la latencia en disponibilidad y las impresiones en ROI. Sin embargo, en los sistemas de big data, he descubierto que los indicadores más engañosos son aquellos que más tendemos a celebrar.

En un caso, un KPI de eficiencia de una campaña digital tuvo una tendencia positiva constante en dos trimestres. Se alineaba con nuestros paneles y era similar a nuestros informes automatizados. Sin embargo, a medida que monitoreábamos la calidad de los clientes potenciales posteriores a la conversión, nos dimos cuenta de que el modelo se había adaptado demasiado a comportamientos a nivel de interfaz, como clics suaves y desplazamientos controlados por la interfaz de usuario, en lugar de comportamientos intencionales. Esta fue una medida técnicamente correcta. Había perdido el vínculo semántico con el valor empresarial. El tablero seguía verde, pero el flujo de negocios se estaba erosionando silenciosamente.

Paradoja de optimización-observación

Una vez que se ha determinado una medida de optimización, ésta puede ser manipulada, no necesariamente por malos actores, sino por el propio sistema. Los modelos de aprendizaje automático, las capas de automatización e incluso el comportamiento del usuario se pueden ajustar mediante incentivos basados ​​en métricas. Cuanto más sintonizado está un sistema con una medida, más le dice la medida cuánto tiene el sistema la capacidad de maximizar en lugar de cuánto representa el sistema la realidad.

He observado esto con un sistema de recomendación de contenido donde las tasas de clics a corto plazo se maximizaban a expensas de la diversidad del contenido. Las recomendaciones eran repetitivas y se podía hacer clic. Las miniaturas eran familiares pero los usuarios las utilizaban con menos frecuencia. El KPI mostró éxito independientemente de las disminuciones en la profundidad del producto y la satisfacción del usuario.

Ésta es la paradoja: los KPI se pueden optimizar hasta dejarlos irrelevantes. Es especulativo en el círculo de formación, pero débil en la realidad. La mayoría de los sistemas de seguimiento no están diseñados para registrar tal desviación porque las medidas de desempeño no fallan; van a la deriva poco a poco.

Cuando las métricas pierden su significado sin romperse.

La deriva semántica es uno de los problemas menos diagnosticados en la infraestructura de análisis, o un escenario en el que un KPI permanece operativo en un sentido estadístico. Aun así, ya no codifica el comportamiento empresarial que antes codificaba. La amenaza está en la continuidad silenciosa. Nadie investiga ya que la métrica no fallaría ni aumentaría.

Durante una auditoría de infraestructura, descubrimos que nuestro recuento de usuarios activos no cambiaba, a pesar de que la cantidad de eventos de uso del producto había aumentado significativamente. Inicialmente, requería interacciones específicas del usuario con respecto al uso. Sin embargo, con el tiempo, las actualizaciones de backend introdujeron eventos pasivos que aumentaron la cantidad de usuarios sin interacción. La definición había cambiado discretamente. El oleoducto estaba en buen estado. La cifra se actualizó diariamente. Pero el significado desapareció.

Esta erosión semántica se produce con el tiempo. Las métricas se convierten en artefactos del pasado, restos de una arquitectura de producto que ya no existe pero que continúa influyendo en los OKR trimestrales, los modelos de compensación y los ciclos de reentrenamiento de modelos. Cuando estas métricas se conectan a sistemas posteriores, se convierten en parte de la inercia organizacional.

Bucle de retroalimentación sobre desalineación de KPI (imagen del autor)

El engaño métrico en la práctica: la deriva silenciosa del alineamiento

La mayoría de las métricas no mienten maliciosamente. Mienten en silencio; alejándose del fenómeno que debían representar. En sistemas complejos, esta desalineación rara vez se detecta en paneles estáticos porque la métrica permanece internamente consistente incluso cuando su significado externo evoluciona.

Tomemos como ejemplo el cambio algorítmico de Facebook en 2018. Con una creciente preocupación por el desplazamiento pasivo y la disminución del bienestar del usuario, Facebook introdujo una nueva métrica central para guiar su algoritmo de News Feed: Interacciones sociales significativas (MSI). Esta métrica fue diseñada para priorizar los comentarios, las acciones compartidas y las discusiones; el tipo de comportamiento digital visto como “compromiso saludable”.

En teoría, MSI era un indicador más fuerte de la conexión comunitaria que los clics o los “me gusta” sin procesar. Pero en la práctica, recompensó el contenido provocativo, porque nada impulsa más la discusión que la controversia. Los investigadores internos de Facebook rápidamente se dieron cuenta de que este KPI bien intencionado estaba sacando a la luz de manera desproporcionada publicaciones divisivas. Según documentos internos informados por The Wall Street Journal, los empleados expresaron repetidamente su preocupación de que la optimización de MSI estuviera incentivando la indignación y el extremismo político.

Los KPI del sistema mejoraron. El compromiso aumentó. MSI fue un éxito, sobre el papel. Pero la calidad real del contenido se deterioró, la confianza de los usuarios se erosionó y el escrutinio regulatorio se intensificó. La métrica había triunfado fracasando. El fracaso no estuvo en el desempeño del modelo, sino en lo que ese desempeño llegó a representar.

Este caso demuestra un modo de falla recurrente en los sistemas maduros de aprendizaje automático: métricas que se optimizan hasta desalinearse. El modelo de Facebook no colapsó porque fuera inexacto. Se derrumbó porque el KPI, aunque estable y cuantificable, había dejado de medir lo que realmente importaba.

Los agregados oscurecen los puntos ciegos sistémicos

Una debilidad importante de la mayoría de los sistemas de KPI es la dependencia del desempeño agregado. El promedio de grandes bases de usuarios o conjuntos de datos con frecuencia oscurece los modos de falla localizados. Anteriormente había probado un modelo de calificación crediticia que generalmente tenía puntuaciones AUC altas. Sobre el papel, fue un éxito. Pero en las desagregaciones regionales y de cohorte de usuarios por región, a un grupo, los solicitantes más jóvenes en regiones de bajos ingresos, les fue significativamente peor. El modelo se generalizó bien, pero poseía un punto ciego estructural.

Este sesgo no se refleja en los paneles a menos que se mida. E incluso cuando se encuentra, a menudo se trata como un caso límite en lugar de un indicador de una falla representacional más fundamental. El KPI aquí no sólo era engañoso sino también correcto: un promedio de desempeño que enmascaraba la inequidad en el desempeño. No es sólo una responsabilidad técnica sino también ética y regulatoria en los sistemas que operan a escala nacional o global.

De la deuda de las métricas al colapso de las métricas

Los KPI se vuelven más sólidos a medida que las organizaciones crecen. La medición creada durante una prueba de concepto puede convertirse en un elemento permanente en la producción. Con el tiempo, las premisas en las que se basa se vuelven obsoletas. He visto sistemas en los que una métrica de conversión, utilizada inicialmente para medir los flujos de clics en computadoras de escritorio, no se modificó a pesar de los rediseños centrados en los dispositivos móviles y los cambios en la intención del usuario. El resultado fue una medida que continuó actualizándose y trazándose, pero que ya no estaba en línea con el comportamiento de los usuarios. Ahora era deuda métrica; código que no estaba roto pero que ya no realizó la tarea prevista.

Peor aún, cuando dichas métricas se incluyen en el proceso de optimización del modelo, puede producirse una espiral descendente. El modelo se adapta demasiado para perseguir el KPI. La desalineación se reafirma mediante el reentrenamiento. La mala interpretación es estimulada por la optimización. Y a menos que uno interrumpa el ciclo manualmente, el sistema degenera a medida que informa el progreso.

Cuando las métricas mejoran mientras falla la alineación (imagen del autor)

Métricas que guían versus métricas que engañan

Para recuperar la confiabilidad, las métricas deben ser sensibles al vencimiento. También implica volver a auditar sus supuestos, verificar sus dependencias y evaluar la calidad de sus sistemas en desarrollo.

Un estudio reciente sobre etiquetas y deriva semántica muestra que los canales de datos pueden transferir silenciosamente suposiciones fallidas a modelos sin ninguna alarma. Esto subraya la necesidad de garantizar que el valor de la métrica y lo que mide sean semánticamente consistentes.

En la práctica, he logrado combinar KPI de diagnóstico con KPI de desempeño; aquellos que monitorean presentan diversidad de uso, variación en la justificación de las decisiones e incluso resultados de simulación contrafactuales. Estos no necesariamente optimizan el sistema, pero lo protegen contra extravíos excesivos.

Conclusión

Lo más catastrófico para un sistema no es la corrupción de datos o código. Es una falsa confianza en un signo que ya no está vinculado a su significado. El fraude no es malintencionado. Es arquitectónico. Las medidas se vuelven inútiles. Los paneles se mantienen verdes y los resultados se pudren debajo.

Las buenas métricas proporcionan respuestas a las preguntas. Pero los sistemas más eficaces siguen desafiando las respuestas. Y cuando una medida se vuelve demasiado doméstica, demasiado firme, demasiado sagrada, entonces es cuando hay que cuestionarla. Cuando un KPI ya no refleja la realidad, no sólo confunde su tablero; engaña a todo su sistema de toma de decisiones.