1ctsj2xnveeug4pxlmwkafw.jpeg
Foto de Choong Deng Xiang en Unsplash

Permítanme presentarles a Sarah, una científica de datos apasionada y talentosa que acaba de conseguir el trabajo de sus sueños en GreenEnv, una gran empresa que fabrica productos de limpieza ecológicos. GreenEnv tiene toneladas de datos sobre clientes, productos y otras áreas del negocio. Contrataron a Sarah para desbloquear el potencial oculto de estos datos, descubriendo tendencias del mercado, ventajas competitivas y más.

Su primera tarea: analizar la demografía de los clientes y los hábitos de compra para crear campañas de marketing específicas. Confiada en sus habilidades y entusiasmada por aplicar métodos de ciencia de datos, Sarah se sumergió en la base de datos de clientes. Pero su entusiasmo inicial se desvaneció rápidamente. Los datos eran un desastre: formato inconsistente, nombres mal escritos y entradas duplicadas por todas partes. Calidad de datos fue terrible. Hubo variaciones de nombres como «Jhon Smith» y «Micheal Brown» junto con entradas como «Jhonn Smtih» y «Michealw Brown». Los correos electrónicos tenían espacios adicionales e incluso errores tipográficos como «gnail.com» en lugar de «gmail.com». junto con muchas otras imprecisiones. Sarah se dio cuenta del arduo trabajo que tenía por delante: la limpieza de datos.

El formato inconsistente, los valores faltantes y los duplicados generarían resultados sesgados, dando una imagen inexacta de la base de clientes de GreenEnv. Los días se convirtieron en semanas mientras Sarah limpiaba incansablemente los datos, solucionaba inconsistencias, llenaba vacíos y eliminaba duplicados. Fue un proceso tedioso, pero esencial para garantizar que su análisis se basara en una base sólida.

¿A quién le importa la calidad de los datos?

Cada año, la mala calidad de los datos cuesta a las organizaciones una media de 12,9 millones de dólares. [1]

Afortunadamente, después de semanas de limpiar y organizar estos datos desordenados, Sarah pudo hacer el trabajo… o al menos esta parte.

Su siguiente desafío llegó cuando se aventuró en los datos de productos, con el objetivo de identificar los artículos más vendidos y recomendar oportunidades futuras. Sin embargo, se encontró con un problema diferente: una completa falta de metadatos. No había descripciones de productos y las categorías eran ambiguas. Básicamente, no había suficientes datos para ayudar a Sarah a comprender los datos del producto. Sarah se dio cuenta de la importancia de gestión de metadatos — información estructurada sobre los propios datos. Sin él, comprender y analizar los datos era casi imposible.

La investigación muestra que la mayoría de los datos tienen imprecisiones

Una investigación de Experian revela que las empresas creen que alrededor del 29% de sus datos son inexactos de alguna manera. [2]

Frustrada pero decidida, Sarah se acercó a diferentes departamentos para recopilar información sobre los productos. Descubrió que cada departamento utilizaba su propia jerga interna y sistemas de clasificación. Marketing y ventas se refieren al mismo producto de limpieza con nombres diferentes.

A medida que Sarah profundizó, descubrió que los conjuntos de datos se guardaban en aplicaciones separadas en diferentes departamentos, los sistemas de almacenamiento obsoletos luchaban por manejar el creciente volumen de datos y Sarah tuvo que esperar mucho tiempo para que se ejecutaran sus consultas. Sarah también notó que no existen reglas claras sobre quién puede acceder a qué datos y bajo qué términos; sin un control centralizado y controles de acceso adecuados, el riesgo de acceso no autorizado a información confidencial aumenta, lo que podría conducir a filtraciones de datos y violaciones de cumplimiento. La falta de dato de governanciaun conjunto de reglas y procedimientos para la gestión de datos, era evidente.

Las violaciones de datos pueden ser costosas

Según el Instituto Ponemon, el coste medio de una filtración de datos en 2023 será de 4,45 millones de dólares a nivel mundial, un récord histórico, y los costes varían según la industria y la ubicación. [3]

Cada uno de los problemas y obstáculos mencionados anteriormente en la historia de Sarah destacó la interconexión de muchos pilares: calidad de los datos, gestión de metadatosy dato de governancia Todos desempeñaron un papel crucial en el acceso y la utilización de conocimientos valiosos en GreenEnv.

El viaje de Sarah es común para los científicos y analistas de datos. Muchas organizaciones tienen enormes cantidades de datos y todo el mundo conoce el dicho: «Los datos son la nueva electricidad». Toda organización quiere aprovechar al máximo sus datos, ya que son un activo muy valioso. Pero la mayoría de la gente cree erróneamente (y en la práctica) que simplemente contratar a un analista o científico de datos es suficiente para desbloquear este valor. Existen muchos pilares para obtener el máximo valor de los datos, y las organizaciones deben tenerlos en cuenta y prestarles atención. La palabra clave aquí es gestión de datos.

Sabías..

El 86% de las organizaciones dice que cree que invertir en la gestión de datos impacta directamente en el crecimiento de su negocio.[4]

Por automata