0tswgq7xlfqvl1yof.jpeg

La gente no sabe a qué se refiere cuando habla de calidad de datos.

Foto por Sin revisiones en desempaquetar

Hace unos años, nuestro equipo de plataforma de datos tuvo como objetivo identificar las principales preocupaciones de nuestros usuarios de datos. Realizamos una encuesta entre personas que interactúan con nuestra plataforma de datos y, como era de esperar, la principal preocupación destacada fue la calidad de los datos.

La respuesta inicial, característica de nuestra mentalidad de ingeniería, fue desarrollar herramientas de calidad de datos. Introducimos una herramienta interna llamada Contessa. A pesar de ser algo engorroso y requerir una importante configuración manual, Contessa facilitó verificaciones de dimensiones estándar de calidad de datos, que abarcan coherencia, puntualidad, validez, singularidad, precisión e integridad. Después de ejecutar la herramienta durante un par de meses con cientos de controles de calidad de datos, llegamos a la siguiente conclusión:

  • En ocasiones, los controles de calidad de los datos ayudaron a los usuarios a descubrir, en un período de tiempo más corto, que los datos estaban comprometidos y no se podía confiar en ellos.
  • A pesar de la frecuente ejecución de controles de calidad de los datos, no hubo ninguna mejora notable en la percepción subjetiva de la calidad de los datos.
  • Para una parte importante de los problemas, en particular aquellos identificados mediante controles automatizados de calidad de los datos, como la coherencia o la validez, nunca se tomaron medidas correctivas.

Las encuestas y las mediciones objetivas son herramientas útiles, pero nada puede reemplazar una discusión tomando un café y un pastel, como escribe Jane Carruthers en su libro: “El manual del director de datos”. De hecho, se lo recomiendo a cualquiera, ya que las conversaciones individuales nos ayudaron a descubrir otro ángulo importante de la situación. Algunas de estas conversaciones se desarrollaron de la siguiente manera:

«Oye, dices que la calidad de los datos es mala, ¿qué quieres decir con eso?»

Analista de negocios de precios n.° 1: “Estamos trabajando para establecer el precio del producto auxiliar X. En el conjunto de datos que utilizamos, nos faltan datos sobre cuáles fueron los ingresos reales del producto X por cada pedido. Tenemos este conjunto de datos, pero solo contiene el valor esperado de los ingresos de X en el momento de la compra. También podemos ver los ingresos reales por producto, pero no la granularidad del pedido”.