0sjhpjnoycfkglb0c.jpeg

Una lista para hacer que la evaluación de herramientas ELT/ETL sea un poco menos desalentadora

Foto por Volodymyr Hryshchenko en desempaquetar

A todos nos ha pasado: ha asistido (¡a muchas!) a reuniones con representantes de ventas de todas las empresas de herramientas de integración de datos SaaS y tiene acceso de 14 días para probar sus productos. Ahora tienes que decidir qué tipo de cosas probar para determinar definitivamente si la herramienta es el compromiso adecuado para ti y el equipo.

Quería reunir algunas notas sobre preguntas clave de evaluación, así como algunas formas de verificar la funcionalidad, ya que estoy seguro de que este es un proceso que encontraré una y otra vez, y me gusta tener una plantilla para estos tipos. de cosas.

Estos se recopilan principalmente teniendo en cuenta plataformas de integración basadas en la nube como, entre otras, Fivetran, Airbyte y Rivery, ¡pero también podrían aplicarse a otros casos!

Si tiene una forma favorita de probar nuevas herramientas de datos, ¡agréguelas a los comentarios!

1. Crea una rúbrica

Puede encontrar un millón de artículos sobre criterios de evaluación para herramientas de integración de datos (me gusta mucho Éste!), pero en última instancia todo se reduce a su plataforma de datos y los problemas que está tratando de resolver dentro de ella.

Reúna al equipo y determine cuáles son estas cosas. Por supuesto, existen características obvias, como los conectores de origen y destino requeridos, que pueden ser factores decisivos, pero tal vez también esté buscando una solución de metadatos que proporcione linaje, o intente aumentar el monitoreo, o necesite escalar algo que se construyó internamente. y ya no se mantiene firme.

Cuando se expone todo eso, también resulta más fácil dividir el trabajo de realizar estas evaluaciones entre los miembros del equipo para que se ejecuten en paralelo.

2. Inicie una canalización simple que se ejecute de inmediato

Elija algo bastante simple y póngalo en funcionamiento desde el primer día. Esto ayudará a crear una imagen general del registro, los metadatos, la latencia, el CDC y todo lo demás que viene con una canalización.

Si tiene suerte, es posible que incluso se encuentre con un error de plataforma en el transcurso de los 14 días y vea cómo se maneja por parte de la empresa de herramientas. Si se trata de una opción de código abierto, también puede ayudarle a comprender si está preparado para gestionar estos problemas internamente.

Preguntas clave

  • ¿La documentación y la interfaz de usuario lo guían a través de la configuración de permisos y claves, programación, configuración de esquemas, etc. de una manera intuitiva o tiene que comunicarse con el representante técnico para obtener ayuda?
  • Si se producen errores en la plataforma, ¿son obvios a través de los registros o es difícil saber si usted o la plataforma son el problema?
  • ¿Con qué rapidez se notifica a los clientes y se resuelven los problemas cuando la plataforma deja de funcionar?

3. Cree algunas transformaciones de un extremo a otro.

Algunas herramientas vienen con integraciones DBT integradas, otras permiten transformaciones basadas en Python totalmente personalizadas. Traducir algunas transformaciones, tal vez incluso una algo compleja, de un extremo a otro de su solución existente puede darle una buena idea de cuán pesado será mover todo, si es que es posible.

Preguntas clave

  • ¿Pueden enviar los datos en el mismo formato en el que están llegando ahora, o cambiarán de manera que afecten en gran medida las dependencias ascendentes?
  • ¿Hay tipos de transformaciones que realiza antes de aterrizar los datos que no se pueden realizar en la herramienta (unir fuentes de datos suplementarias, analizar JSON desordenado de múltiples niveles, etc.) que ahora tendrán que realizarse en la base de datos después del aterrizaje? ?

4. Lanzarle una fuente de datos no nativa

Intente procesar algo desde una fuente o formato que no sea compatible de forma nativa (cree algunos archivos de ancho fijo, o tal vez elija una herramienta interna que exporte datos de una manera no convencional), o al menos hable con su departamento técnico de ventas sobre cómo podría hacerlo. representante. Incluso si, en este momento, eso no es un problema, si surge algo, vale la pena al menos comprender cuáles son las opciones para implementar esa funcionalidad.

Preguntas clave

  • Cuando surja una fuente no compatible, ¿tendrá la herramienta suficiente flexibilidad para crear una solución dentro de su marco?
  • Cuando comienza a agregar funciones personalizadas al marco, ¿se aplica el mismo registro, manejo de errores, administración de estado, etc.?

5. Forzar un error

En algún lugar de uno de los procesos de prueba que ha creado, agregue un archivo mal formateado, agregue código incorrecto en una transformación, cambie el esquema o cause estragos de alguna otra manera creativa para ver qué sucede.

Las herramientas de terceros como estas pueden ser cajas negras en algunos aspectos, y nada es más frustrante cuando una tubería falla que mensajes de error incomprensibles.

Preguntas clave

  • ¿Los mensajes de error y los registros dejan claro qué salió mal y dónde?
  • ¿Qué sucede con los datos que estaban en proceso una vez que se implementa una solución? ¿Algo se pierde o se carga más veces de las que debería?
  • ¿Existen opciones para redirigir los datos incorrectos y permitir que el resto del proceso continúe?

Un par de bonificaciones

Haga que un usuario no técnico ingiera una hoja de Google

La necesidad de integrar datos de una hoja de cálculo cargada manualmente es un caso de uso algo más común de lo que a los DE les gusta pensar. Una herramienta debería facilitar que el equipo de producción lo haga sin que los DE se involucren en absoluto.

Lea los hilos de Reddit sobre la herramienta.

Reddit me ha resultado muy útil a la hora de buscar opciones de herramientas. Las personas suelen ser muy razonables en su evaluación de las experiencias positivas y negativas con una herramienta y abiertas a responder preguntas. Al final del día, incluso en una fase de prueba exhaustiva se perderán cosas, y esta puede ser una manera fácil de ver si tiene algunos puntos ciegos.