¿Cuántos datos necesitamos?  Equilibrando el aprendizaje automático con consideraciones de seguridad

Para un científico de datos, no existen demasiados datos. Pero cuando miramos más ampliamente el contexto organizacional, tenemos que equilibrar nuestros objetivos con otras consideraciones.

Foto por Universidad de Trnava en desempaquetar

Ciencia de datos versus seguridad/TI: una batalla eterna

Adquirir y conservar datos es el foco de una gran cantidad de nuestra energía mental como científicos de datos. Si le preguntas a un científico de datos “¿Podemos resolver este problema?” La primera pregunta que nos haremos la mayoría de nosotros es “¿Tiene datos?” seguido de “¿Cuántos datos tienes?” Queremos recopilar datos porque es un requisito previo para la mayoría de los tipos de trabajo que queremos hacer, con el fin de producir modelos valiosos y resultados beneficiosos. Nos encanta profundizar en esos datos, aprender qué hay realmente allí y qué significan, descubrir cómo se generaron o recopilaron y extraer conclusiones generalizables de ellos.

Sin embargo, analizar detenidamente la privacidad de los datos sitúa nuestros hábitos y elecciones en un contexto diferente. Los instintos y deseos de los científicos de datos a menudo trabajan en tensión con las necesidades de privacidad y seguridad de los datos. Cualquiera que haya luchado por obtener acceso a una base de datos o un almacén de datos para construir un modelo puede identificarse. Puede parecer que se están levantando barreras extremadamente cautelosas que nos impiden hacer nuestro trabajo. Después de todo, ¿no es la razón por la que tenemos los datos para aprender de ellos y modelarlos? Incluso los mejores de nosotros a veces demonizamos las partes de nuestra organización cuyos objetivos principales están en el área de privacidad y seguridad y entran en conflicto con nuestros deseos de chapotear en el lago de datos.

En realidad, los científicos de datos no siempre son los héroes y los equipos de seguridad y TI no son los villanos. Ambos estamos trabajando en objetivos importantes y ambos podemos tener un poco de visión de túnel en esa búsqueda. Es útil observar las perspectivas de ambos roles para comprender la tensión existente y los intereses en competencia.

La perspectiva de la ciencia de datos

Desde el ángulo de la ciencia de datos, frecuentemente es necesario tener grandes volúmenes de datos para alcanzar los objetivos de nuestro trabajo. Para construir un modelo generalizable, necesita tener muchos, muchos ejemplos de los tipos de datos a los que su modelo deberá responder en producción. Cientos de miles o millones de casos no es una cantidad escandalosa, de ninguna manera. Sin embargo, para que esto realmente funcione, los científicos de datos deben dedicar mucho tiempo y energía a interrogar esos datos. Tener una gran cantidad de datos es fantástico, pero si no se sabe lo que realmente representan y su procedencia, la batalla para hacer una ciencia de datos eficaz será muy ardua.

El ángulo de la seguridad

Por otro lado, si adoptamos la perspectiva de seguridad, tenemos que admitir que cuanto mayores sean las cantidades de datos que tengamos (especialmente si hay múltiples sistemas de almacenamiento o procesos que influyen en los datos), mayor será el riesgo de violación de datos. Esencialmente, cuantos más datos tengamos, mayores serán las posibilidades de que algunos de ellos se pierdan o alguien acceda a ellos de manera inapropiada. Además, que más personas tengan acceso a los datos significa más oportunidades de vulneración o pérdida de datos, porque los seres humanos son el mayor vector de riesgo en el espacio tecnológico. Somos el eslabón débil de la cadena.

¿Qué significa todo esto? Yo diría que esto nos lleva a necesitar un término medio. Por un lado, cuantos más datos tengamos por ahí, menor será la probabilidad de que realmente hayamos hecho el trabajo para comprenderlos profundamente, o incluso de que podamos hacerlo con el tiempo y las herramientas a nuestra disposición. Si simplemente acaparamos todo indiscriminadamente, nos ponemos en una posición en la que ni siquiera podemos comprender todos los datos y, al mismo tiempo, corremos el máximo riesgo de sufrir una vulneración. Si no almacenamos nada, o no lo suficiente, imposibilitamos el acceso al increíble valor que la ciencia de datos tiene para ofrecer.

Por lo tanto, necesitamos descubrir dónde reside este término medio. Las mejores prácticas en ingeniería de datos y retención de datos existen, pero también tenemos que tomar muchas decisiones espontáneas. Tener principios sobre cómo pensamos sobre la retención y el uso de datos es importante para ayudarnos a guiarnos en estas situaciones.

Consideraciones institucionales

Mientras estoy en este tema de la gestión de datos, debo mencionar: ¡recientemente comencé un nuevo puesto! Soy el primer ingeniero senior de aprendizaje automático en DataGrail, una empresa que ofrece un conjunto de servicios B2B que ayudan a las empresas a proteger y gestionar los datos de sus clientes. Naturalmente, esto ha puesto en primer plano las cuestiones del almacenamiento de datos y la privacidad y me ha hecho pensar en las experiencias que he tenido a lo largo de mi carrera en empresas de distintos niveles de madurez y en cómo manejaban los datos.

Es muy fácil para una empresa convertirse en acaparadora de datos. Comienza con una escasez de datos y va a ciegas, recopilando datos sobre transacciones, actividades comerciales, etc. a medida que avanza para ayudar a informar las decisiones y la estrategia. Puede que todavía no estés utilizando el aprendizaje automático, pero puedes ver el potencial futuro y quieres preparar el escenario. ¡Parece no sólo razonable sino también vital recopilar sus datos y almacenarlos! Entonces, configuras sistemas de datos y comienzas a llenar esas tablas o temas.

Sin embargo, esto no es sostenible; al menos no para siempre. Después de que pasen unos años, puedes terminar con enormes volúmenes de datos. Tal vez necesite escalar a un proveedor de almacenamiento en la nube como Snowflake o AWS para mantenerse al día y hacer que todos estos datos sean accesibles al ritmo que necesita. ¡Estás usando los datos, por supuesto! Tal vez haya comenzado un programa de aprendizaje automático, o incluso simplemente análisis avanzado y BI, pero esto está marcando una gran diferencia en la efectividad de su negocio si se hace bien. Pero aun así, tendrás que empezar a pensar en el coste de la infraestructura, sin mencionar probablemente la contratación de personal de ingeniería de datos para ayudar a gestionar la bestia.

Desafortunadamente, usted también ha comenzado a adquirir datos que ya no maneja bien. La documentación puede estar desactualizada, si es que alguna vez existió, y el personal que ayudó a construir los sistemas originales hace años podría estar cambiando. ¿Qué significa esta tabla? ¿Cuál es la procedencia de esa columna? Los datos que no son interpretables generan poco valor, si es que generan alguno, porque no se puede aprender eficazmente de datos que no se comprenden.

En este punto tienes decisiones que tomar. ¿Cómo va a planificar estratégicamente el futuro de sus sistemas de datos? Probablemente necesite prestar atención a la arquitectura de datos para intentar evitar que los costos se disparen, pero ¿qué pasa con la retención de datos? ¿Conservas todos los datos para siempre? Si no, ¿qué cortas y cuándo? Recuerde, sin embargo, que retener un volumen bastante grande de datos es un requisito no negociable si su empresa tendrá funciones efectivas de aprendizaje automático y/o análisis que respalden su toma de decisiones y sus productos. “Tirarlo todo y evitar todas estas tonterías” no es una opción.

Al mismo tiempo, es necesario pensar en los marcos regulatorios y legales que se aplican para tener todos estos datos. ¿Qué vas a hacer si un cliente te pide que elimines todos los datos que tienes sobre él, como lo permiten algunas jurisdicciones? Muchas organizaciones no toman esto en serio hasta que ya llegan tarde a la fiesta. Si va a estar al tanto y no comenzó desde el día 1, le espera la difícil tarea de modernizar su arquitectura de datos para manejar los requisitos regulatorios a los que están sujetos estos datos.

Un aparte sobre la regulación

El crecimiento de las regulaciones de seguridad de datos en los últimos años ha aumentado los desafíos del escenario que describo para las empresas. En cierto modo, fue obra nuestra: numerosas violaciones de datos, seguridad laxa y políticas de consentimiento opacas por parte de diversas empresas en los últimos años han llevado a la demanda pública de algo mejor, y el gobierno llenó el vacío. Parece que la confianza y la seguridad de la marca no fueron motivación suficiente por sí solas para que muchas empresas reforzaran el barco en lo que respecta a la protección de datos. Si las leyes fueran necesarias para garantizar que nuestros datos personales y registros confidenciales estén protegidos a conciencia, entonces, por mi parte, estoy totalmente a favor.

Sin embargo, en mi puesto de científico de datos, debo reconocer la tensión con la que comencé en esta columna. Quiero todos los datos y quiero poder explorarlos sin restricciones, porque así es como hago mi trabajo de manera efectiva. Pero también soy cliente y ciudadano y quiero que MIS datos estén cuidadosamente protegidos. Sé que la promesa y el poder del aprendizaje automático dependen de que los datos estén disponibles para su uso, pero, naturalmente, parece un poco menos claro si se considera que son los datos sobre usted y sus hábitos los que alimentan el progreso. Considero que este rol es un poco más fácil de implementar que el de “seguridad” per se, porque no soy un profesional capacitado en seguridad de datos, pero no necesito serlo para tener una idea clara de cuáles serían mis preferencias como consumidor.

Mi consejo es que tengamos a mano nuestras funciones de consumidor/seguridad y nuestras funciones de científico de datos. Tenemos que mantener un equilibrio entre la acumulación de datos para el aprendizaje automático y la limitación de nuestra retención de datos para la privacidad y la seguridad de los datos del cliente. No existe una respuesta mágica a la pregunta “¿cuánto debemos conservar?”, por lo que la única opción es hacer malabarismos con ambos intereses en cada decisión que tomamos sobre el almacenamiento de datos.

Me tomaré un breve descanso de mi columna durante las vacaciones y regresaré a mediados de enero con mi próximo artículo.

Ver más de mi trabajo en www.stephaniekirmer.com.


¿Cuántos datos necesitamos? Equilibrando el aprendizaje automático con consideraciones de seguridad fue publicado originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.