19z2qukzcxjh2 Uurd0 Swg.png

democratización de datos –El proceso de hacer que los datos sean accesibles para todos en una organización, independientemente de sus habilidades técnicas.

La democratización de los datos es un enigma que la vieja escuela Ralph Kimball acólitos como yo hemos estado tratando de resolver durante décadas. Comenzando con los modelos de datos fáciles de usar (almacenes de datos) y luego con la gran cantidad de herramientas de inteligencia empresarial altamente evolucionadas y fáciles de usar que ahora están disponibles, hemos recorrido un largo camino.

Y, sin embargo, la capacidad de obtener nuevos conocimientos a partir de los datos, en su mayor parte, sigue siendo dominio de los analistas de datos, los científicos de datos y los analistas de negocios. Para la gran mayoría de los demás miembros de las organizaciones empresariales, el foso técnico alrededor de los datos (real o imaginaria) persiste.

¿Un rayo de esperanza?

A finales de noviembre de 2022, el lanzamiento de ChatGPT por parte de OpenAI permitió al público en general (léase: no técnico) interactuar con un modelo de lenguaje grande (LLM) simplemente escribiendo una solicitud. (inmediato) en su lenguaje natural. A través de esta interfaz de usuario conversacional, los usuarios podían solicitar al LLM que respondiera preguntas sobre los datos en los que había sido «capacitado». En el caso de ChatGPT, fue entrenado en, bueno… Internet.

ChatGPT puso un increíble poder de procesamiento de datos en manos de cualquiera que tuviera acceso a él. A medida que nos dimos cuenta de las posibilidades de este mecanismo, muchos de nosotros en el campo del análisis de datos pronto comenzamos a reflexionar sobre su impacto potencial en nuestro propio espacio.

No tuvimos que reflexionar por mucho tiempo…

Apenas cuatro meses después del lanzamiento inicial de ChatGPT para el público en general, OpenAI lanzó una versión alfa de un complemento ChatGPT llamado Intérprete de código. Con él, cualquiera podría cargar un conjunto de datos en ChatGPT, escribir algunas indicaciones e invocar Python para realizar análisis de regresión, análisis descriptivos e incluso crear visualizaciones. ¡Todo sin tener que escribir ningún código!

El lanzamiento de Code Interpreter nos dio a todos una idea de cómo podría funcionar el análisis de datos conversacional impulsado por IA. ¡Fue alucinante!

No mucho después de esto, citando la capacidad ya establecida de ChatGPT para escribir código (SQL, R y Python, por nombrar algunos) junto con las capacidades incipientes de Code Interpreter, muchos comenzaron a predecir la eventual desaparición de la función de analista de datos. (En ese momento, no estaba de acuerdo e incluso escribí un artículo al respecto).

Obra creada por Galen Okazaki usando Midjourney

¿La IA generativa reemplazará la necesidad de analistas de datos? Galen Okazaki por Hacia la ciencia de datos

Por supuesto, tal predicción no parecía muy exagerada si se consideraba la posibilidad de que incluso los menos inclinados técnicamente en su organización empresarial pudieran obtener información a partir de sus datos simplemente escribiendo o incluso formulando preguntas verbalmente.

Entonces, ¿podría el análisis de datos conversacional impulsado por la IA ser realmente la clave para salvar el foso técnico entre los datos y su democratización?

Echemos un vistazo más de cerca.

El estado actual del análisis de datos conversacional impulsado por IA

Entonces… ha pasado casi un año y medio desde que se lanzó la versión alfa de Code Interpreter y ¿cuánto hemos avanzado con el análisis de datos conversacional impulsado por IA? Probablemente no tanto como hubiera previsto.

Por ejemplo: en julio de 2023, el intérprete de código de ChatGPT fue renombrado y lanzado nuevamente como Análisis de datos avanzado. No solo se cambió el nombre de Code Interpreter, sino que también… umm… err… Bueno, al menos su nuevo nombre proporciona una descripción más precisa de lo que realmente hace. 🤷‍♂️

Para ser justos, Code Interpreter/Advanced Data Analysis es una excelente herramienta, pero nunca tuvo la intención de ser una solución de análisis para toda la empresa. Todavía solo funciona con archivos estáticos que usted carga, ya que no puede conectarlo a una base de datos.

Para tener una mejor perspectiva, veamos algunas herramientas analíticas disponibles actualmente que han incorporado interfaces de IA conversacionales.

Preguntas y respuestas sobre Power BI

El primer intento de implementar análisis de datos conversacionales es anterior al lanzamiento de ChatGPT. En 2019, la omnipresente Microsoft Energía BI lanzó una función llamada «Preguntas y respuestas». Permitía a los usuarios escribir preguntas sobre sus datos en su idioma natural, siempre que fuera inglés (actualmente el único idioma admitido).

Esto se hace a través de una interfaz de cuadro de texto integrada en un panel o informe existente. A través de esta interfaz, los usuarios hacen preguntas sobre el conjunto de datos detrás de ese panel o informe en particular en lenguaje natural. Power BI utiliza Consulta en lenguaje natural (NLQ), para traducir preguntas de texto en una consulta. Las respuestas se representan en visualizaciones.

Si bien esta característica tiene sus usos, tiene una limitación importante. Las preguntas y respuestas de Power BI se limitan a consultar únicamente el conjunto de datos detrás del informe o panel que se está examinando, lo cual tiene un alcance demasiado limitado si su objetivo final es la democratización de los datos en toda la empresa.

Analista de corteza de copo de nieve

Un ejemplo más adecuado de análisis de datos conversacional impulsado por IA que potencialmente podría respaldar la democracia de datos es Analista de corteza de Snowflake.

Para resumir brevemente, Snowflake en sí es una plataforma de análisis y almacenamiento de datos basada en la nube SaaS en constante crecimiento que ofrece a los clientes la opción de escalar su almacenamiento y/o computar hacia arriba o hacia abajo según lo necesiten. Su arquitectura también admite consultas y procesamiento de datos de alta velocidad.

Cortex Analyst es la versión de Snowflake de análisis de datos conversacional impulsado por IA. Desde el principio, tiene una gran ventaja sobre las preguntas y respuestas de Power BI, ya que en lugar de solo permitir a los usuarios consultar un conjunto de datos detrás de un informe o panel existente, Cortex Analyst permitirá al usuario consultar toda la base de datos subyacente. Lo hace por Confiar en la capa semántica y el modelo para interpretar las solicitudes de los usuarios..

Esto nos lleva a un punto crítico.

tener un capa semántica completamente examinada en su lugar es un absoluto prerrequisito para la democracia de datos. Tiene sentido que antes de capacitar a todos los miembros de su empresa con la capacidad de trabajar con datos, debe haber una definición universalmente acordada de los datos y las métricas que se utilizan. Más sobre esto más adelante.

Si bien aquí solo he analizado dos ejemplos de análisis de datos conversacionales impulsados ​​por IA, deberían ser suficientes para ayudarlo a imaginar su papel potencial en la democratización de los datos.

Desafíos para la democracia de datos

Si bien la capacidad de hacer una pregunta sobre sus datos en lenguaje natural y obtener una respuesta tiene un potencial significativo, Creo que los mayores desafíos para la democracia de datos no son tecnológicos.

Comencemos con los requisitos previos para una democratización de datos exitosa. Estos incluyen una sólida infraestructura de datos que aborda plenamente los aspectos mencionados anteriormente. capa semántica y modelo, alfabetización en datos, calidad de los datos y gobernanza de los datos. En sí mismos, cada de estos es un proyecto importante y la realidad es que, para muchas empresas, todavía son trabajos en progreso.

Esto es especialmente cierto en el caso de la alfabetización en datos.

A saber, mientras que el 92% de los responsables de la toma de decisiones empresariales creen que la alfabetización en datos es importante, sólo el 34% de las empresas ofrecen actualmente formación en alfabetización en datos (fuente Índice de alfabetización en datos, Wharton School of Business).

Otro desafío es uno que he visto a lo largo de mi carrera en el análisis de datos. En mi experiencia, siempre ha habido un grupo de usuarios (algunos de ellos en el nivel C) que, por diversas razones, se negaron a utilizar las interfaces de BI que creamos para ellos. Si bien normalmente eran una minoría de personas, nos recordó que, si bien las campanas y los silbatos son geniales, muchos continuarán obstinadamente trabajando solo con lo que están más familiarizados.

Resumen

Un esfuerzo exitoso de democratización de datos no puede basarse en una tecnología específica, independientemente de su promesa. Requiere un enfoque visionario y multifacético que incluya una infraestructura de datos sólida y una mentalidad organizacional que priorice los datos, además de tecnologías apropiadas.

Entonces, si bien el análisis de datos conversacional impulsado por la IA no puede por sí solo resolver el enigma de la democratización de los datos, ciertamente puede desempeñar un papel importante en un esfuerzo general.

Nota al margen:

Como alguien que cree en permitir que las líneas de negocio trabajen con datos, veo un valor inmenso en el análisis de datos conversacional impulsado por IA.

En mi opinión, al menos por el momento, el mayor y mejor uso de esta herramienta estaría en manos de analistas de negocio. Dado su conocimiento combinado de cómo funciona el negocio (conocimiento del dominio) y su alfabetización en datos ya establecida, son los mejor equipados para aprovechar el análisis conversacional para obtener respuestas sin verse sobrecargados por códigos complejos.