Plataforma, malla, centro y habló, y centralizado | 3 tipos de equipo de datos

Introducción

En el “Cambio rápidamente del paisaje de datos e IA“(!), Comprender los datos y la arquitectura de IA nunca ha sido más crítico. Sin embargo, algo que muchos líderes pasan por alto es la importancia de la estructura del equipo de datos.

Mientras que muchos de ustedes que leen esto probablemente se identifiquen como el Equipo de datos, algo que la mayoría no se da cuenta es cuán limitante puede ser esa mentalidad.

De hecho, diferentes estructuras de equipo y requisitos de habilidades afectan significativamente la capacidad de una organización para usar datos y IA para generar resultados significativos. Para comprender esto, es útil pensar en una analogía.

Imagina un hogar de dos personas. John trabaja desde casa y Jane va a la oficina. Hay un montón de administrador de la casa que Jane confía en John para hacer, lo cual es mucho más fácil ya que él es el que está en casa la mayor parte del tiempo.

¡Jane y John tienen hijos y después de crecer un poco, John tiene el doble de administrador! Afortunadamente, los niños están entrenados para hacer lo básico; Pueden lavarse, ordenados e incluso ocasionalmente hacer un poco de asalto con cierta coerción.

A medida que los niños crecen, los padres de John se mudan. Son bastante viejos, por lo que John los cuida, pero afortunadamente, los niños son básicamente autosuficientes en este momento. ¡Con el tiempo, el papel de John ha cambiado bastante! Pero siempre lo ha convertido en una familia nuclear feliz, gracias a John y Jane.

Volver a los datos: John es un poco como el equipo de datos, y todos los demás son un experto en dominio. Confían en John, pero de diferentes maneras. Esto ha cambiado mucho con el tiempo, y si no lo hubiera hecho, podría haber sido un desastre.

En el resto de este artículo, exploraremos el viaje de John desde un centro centralizado, a través de un centro de datos de estilo de malla de plataforma.

Equipos centralizados

Un equipo central es responsable de muchas cosas que te serán familiares:

Plataforma y arquitectura de datos principales: los marcos y las herramientas utilizados para facilitar las cargas de trabajo de datos y IA.
Datos e ingeniería de IA: centralización y limpieza de conjuntos de datos; estructurar datos no estructurados para cargas de trabajo de IA
BI: Building Panplboards para visualizar las ideas
AI y ML: La capacitación y el despliegue de modelos en los datos limpios antes mencionados
Abogando por el valor de los datos y la capacitación de personas para comprender cómo usar herramientas de BI

¡Este es mucho trabajo para algunas personas! De hecho, es prácticamente imposible clavar todo esto a la vez. Es mejor mantener las cosas pequeñas y manejables, centrándose en algunos casos de uso clave y aprovechando las herramientas potentes para comenzar temprano.

Incluso puede obtener una niñera o una au pair para ayudar con el trabajo (en este caso, consultores).

Pero este patrón tiene defectos. Es fácil caer en el trampa de siloun escenario en el que el equipo central se convierte en un gran cuello de botella para los datos y las solicitudes de IA. Los equipos de datos también deben adquirir conocimiento de dominio de expertos en dominios para responder a las solicitudes de manera efectiva, lo que también lleva mucho tiempo y es difícil.

Aparcarse en las solicitudes ad-hoc a menudo es inevitable para los equipos centralizados

Una salida es expandir al equipo. Más personas significa más salida. Sin embargo, hay mejores enfoques más modernos que pueden hacer que las cosas vayan aún más rápido.

Pero solo hay un John. Entonces, ¿qué puede hacer?

John es una isla en el equipo centralizado. Imagen los del autor

Parcialmente descentralizado o cubo y habló

La configuración parcialmente descentralizada es un modelo atractivo para organizaciones de tamaño mediano o pequeñas y tecnológicas donde hay Habilidades técnicas fuera del equipo de datos.

La forma más simple hace que el equipo de datos mantenga la infraestructura de BI, pero no el contenido en sí. Esto se deja en ‘usuarios actuales’ que toman esto en sus propias manos y construyen el BI ellos mismos.

Esto, por supuesto, se encuentra con todo tipo de problemas, como la trampa de silo, descubrimiento de datosgobernanza, y confusión. La confusión es especialmente dolorosa cuando las personas a las que se les dice que se adapten a sí mismos intenten y falle debido a la falta de comprensión de los datos.

Un enfoque cada vez más popular es que se abran capas adicionales de la pila. Está el Rise del ingeniero de análisis y los analistas de datos asumen cada vez más más responsabilidad. Esto incluye el uso de herramientas, hacer modelado de datos, construir tuberías de extremo a extremo y abogar por el negocio.

Esto ha llevado a enormes problemas cuando se implementa incorrectamente. No dejaría que su hijo de cinco años cuide el cuidado de sus mayores y cuidara la casa desatendida.

Específicamente, la falta de principios básicos de modelado de datos y motores de almacén de datos conduce a la expansión modelo y los costos en espiral. Hay dos ejemplos clásicos.

Los gráficos de linaje pueden volverse bastante peludos sin un buen modelo de datos. Sin embargo, este está bastante limpio. Imagen los del autor

Una es cuando varias personas intentan definir lo mismo, como los ingresos. El marketing, las finanzas y el producto tienen una versión diferente. Esto lleva a argumentos inevitables en revisiones comerciales trimestrales cuando cada departamento informa con un número diferente: la parálisis de análisis.

El otro es Rolling Counts. Supongamos que Finance quiere ingresos para el mes, pero el producto quiere saber qué es en los siete días. “Eso es fácil”, dice el analista. “Simplemente crearé algunas vistas materializadas con estas métricas en ellas”.

Como cualquier ingeniero de datos sabe, esta operación de Rolling Counts es bastante costosa, especialmente si la granularidad debe ser de día o de hora, ya que necesita un calendario para ‘desplazar’ el modelo. Antes de que te des cuenta. rolling_30_day_sales , rolling_7_day_sales , rolling_45_day_sales etcétera. Estos modelos cuestan un orden de magnitud más de lo requerido.

Simplemente solicitar la granularidad más baja requerida (diariamente), materializar eso y crear vistas aguas abajo puede resolver este problema, pero requeriría algún recurso central.

Un modelo de centro temprano y un modelo debe tener una clara delineación de responsabilidad si el conocimiento fuera del equipo de datos es joven o juvenil.

Un modelo de centro temprano y radios, donde las responsabilidades como el modelado de datos centrales se encuentran dentro del círculo azul, y las tareas aguas abajo se dedican a la responsabilidad. Imagen los del autor

A medida que los equipos crecen, los marcos Legacy, solo de código como Apache Airflow también dan lugar a un problema: una falta de visibilidad. Las personas fuera del equipo de datos que buscan comprender lo que está pasando dependerán de herramientas adicionales para comprender lo que sucede de extremo a extremo, ya que las UI heredadas no agregan metadatos de diferentes fuentes.

Es imperativo superficial de esta información a los expertos en dominios. ¿Cuántas veces le han dicho que los ‘datos no se ven bien’, solo para darse cuenta después de rastrear todo manualmente que era un problema en el lado del productor de datos?

Al aumentar la visibilidad, los expertos en dominios se conectan directamente a los propietarios de datos o procesos de origen, lo que permite que las correcciones sean más rápidas. Esto elimina la carga innecesaria, el cambio de contexto y los tickets para el equipo de datos.

Centro y habló (puro)

Un centro puro y un habla es un poco como delegar a sus hijos adolescentes con responsabilidades específicas dentro de las barandillas claras. No solo les das tareas que hacer como sacar los contenedores y limpiar su habitación, pides lo que quieres, como una “habitación limpia y ordenada”, y confías en ellos para hacerlo. Los incentivos funcionan bien aquí.

En un enfoque puro de Hub and Spoke, el equipo de datos administra la plataforma y permite que otros la usen. Construyen los marcos para construir e implementar tuberías de IA y datos, y administrar el control de acceso.

Los expertos en dominios pueden construir cosas de extremo a extremo si es necesario. Esto significa que pueden mover datos, modelarlos, orquestar la tubería y activarlo con IA o paneles como mejor les parezca.

A menudo, el equipo central también hará un poco de esto. Cuando los modelos de datos en los dominios son complejos y superpuestos, casi siempre deben tomar posesión de la entrega de modelos de datos principales. La cola no debe mover al perro.

¡El equipo central es solo una plataforma, aparte de cuando no lo son! Imagen los del autor

Esto comienza a parecerse a una mentalidad de productos de datos, mientras que un equipo de finanzas podría tomar posesión de invertir y limpiar datos ERP, el equipo central poseería un importante producto de datos como la tabla de clientes o la tabla de facturas.

Esta estructura es muy poderosa ya que es muy colaborativa. A menudo funciona solo si los equipos de dominio tienen un grado razonablemente alto de competencia técnica.

Aquí se recomiendan las plataformas que permitan el uso del código y el no código juntos, de lo contrario, siempre existirá una dependencia técnica dura del equipo central.

Otra característica de este patrón es el entrenamiento y el apoyo. El equipo o centro central pasará algo de tiempo apoyando y subiendo los radios para construir flujos de trabajo de IA y datos de manera eficiente dentro de las barandillas.

Nuevamente, proporcionar visibilidad aquí es difícil con los marcos de orquestación heredados. Los equipos centrales se verán cargados de mantener las tiendas de metadatos actualizadas, como los catálogos de datos, para que los usuarios comerciales puedan entender lo que está sucediendo.

La alternativa: los expertos en dominio de alquiler para tener marcos profundos de aprendizaje de experiencia en Python con curvas de aprendizaje empinadas, es aún más difícil de lograr.

Producto de malla/datos de plataforma

El punto final natural en nuestro viaje teórico doméstico nos lleva a la muy criticizada Malla de datos o enfoque de malla de plataforma.

En este hogar, se espera que todos sepan cuáles son sus responsabilidades. Todos los niños son crecidos y se puede confiar para mantener la casa en orden y cuidar a sus habitantes. Hay una estrecha colaboración y todos trabajan juntos sin problemas.

Suena bastante idealista, ¿no crees?

En la práctica, rara vez es tan fácil. Permitir que los equipos satelitales usen su propia infraestructura y construyan lo que quieran es una forma segura de perder el control y ralentizar las cosas.

Incluso si estandarizara las herramientas en todos los equipos, las mejores prácticas aún sufrirían.

He hablado con innumerables equipos en organizaciones masivas como cadenas minoristas o aerolíneas, y evitar una malla no es una opción porque múltiples divisiones comerciales dependen entre sí.

Estos equipos usan diferentes herramientas. Algunos aprovechan las instancias de flujo de aire y los marcos heredados construidos por consultores hace años. Otros usan la última tecnología y una pila de datos moderna y completa, hinchada.

Todos luchan con el mismo problema; colaboración, comunicación y orquestación de flujos en diferentes equipos.

La implementación de una sola plataforma general para construir datos y flujos de trabajo de IA aquí puede ayudar. A plano de control unificado es casi como un orquestador de orquestadores, que agrega metadatos en diferentes lugares y muestra el linaje de extremo a extremo en los dominios.

Naturalmente, es un plano de control efectivo donde cualquiera puede recolectar para depurar tuberías fallidas, comunicarse y recuperarse, todo sin confiar en un equipo central de ingeniería de datos que de otro modo sería un cuello de botella.

Hay analogías claras para esto en ingeniería de software. A menudo, el código da como resultado registros que son recopilados por una sola herramienta como Datadog. Estas plataformas proporcionan un solo lugar para ver que todo lo que sucede (o no sucede), alertas y colaboración para la resolución de incidentes.

Resumen

Las organizaciones son como familias. Por mucho que nos guste la idea de una familia grande, feliz y autosuficiente, a menudo hay responsabilidades que debemos soportar para que las cosas funcionen inicialmente.

A medida que maduran, los miembros se acercan a la independencia, como los niños de John. Otros encuentran su lugar como partes interesadas dependientes pero leales, como los padres de John.

Las organizaciones no son diferentes. Equipos de datos están madurando de los que do-ers en equipos centralizados a los facilitadores en Hub y hablan arquitecturas. Eventualmente, la mayoría de las organizaciones tendrán docenas, si no cientos de personas que están pioneros en datos y flujos de trabajo de IA en sus propios radios.

Una vez que esto sucede, es probable que se usen los datos y la IA en organizaciones pequeñas y ágiles se parezcan a la complejidad de empresas mucho más grandes donde la colaboración y la orquestación en diferentes equipos son inevitables.

Comprender dónde están las organizaciones en relación con estos patrones es imperativo. Intentar forzar una mentalidad de datos como producto en una empresa inmadura, o apegarse a un gran equipo central en una organización grande y madura dará como resultado un desastre.

Buena suerte 🍀

Plataforma, malla, centro y habló, y centralizado | 3 tipos de equipo de datos

ByEquipo de 7 minutos

Introducción

Equipos centralizados

Parcialmente descentralizado o cubo y habló

Centro y habló (puro)

Producto de malla/datos de plataforma

Resumen

By Equipo de 7 minutos

Related Post

Databricks Open-Sources Omnigent: un metaarnés que compone, gobierna y comparte agentes de inteligencia artificial en Claude Code, Codex y Pi

Resolver el problema de probabilidad de cadenas 3Blue1Brown (sin IA)

Una implementación de codificación en MONAI para la segmentación del bazo en 3D de extremo a extremo utilizando UNet en volúmenes de TC médicos

You missed

Príncipe William, Kate Middleton, Príncipe Andrés

‘Quedamos asombrados’: Millones de exoplanetas podrían nacer cerca de agujeros negros supermasivos activos

La pelea de UFC en la Casa Blanca es el evento perfecto para la era Trump

El viaje del Papa a España termina en un drama turístico « Euro Weekly News