¿Qué tendencias clave cree que darán forma al futuro del análisis de datos en inteligencia empresarial?
Rytis Ulys, líder del equipo de análisis de Oxylabs En poco más de una década, el análisis de datos pasó por varias transformaciones importantes. Primero, se digitalizó. En segundo lugar, fuimos testigos del surgimiento del análisis de ‘grandes datos’, impulsado en parte por la digitalización y en parte por la mejora masiva de las capacidades de almacenamiento y procesamiento. Finalmente, en los últimos años, la analítica se ha transformado una vez más gracias a los modelos emergentes de IA generativa que pueden analizar datos a una escala y velocidad nunca antes vistas. Gen AI se está convirtiendo en el asistente personal de un analista de datos y se hace cargo de tareas menos interesantes, desde la generación de código básico hasta la visualización de datos.
Creo que el efecto clave de la IA generativa (y la principal tendencia futura para el análisis de datos) es la democratización de los datos. Recientemente, ha habido mucha actividad en torno a productos de “texto a SQL” para ejecutar consultas en lenguaje natural, lo que significa que las personas sin especialización en ciencias de datos tienen la posibilidad de profundizar en el análisis de datos.
Sin embargo, no debemos dejarnos llevar por las exageraciones demasiado rápido. Esas herramientas impulsadas por IA no son 100% precisas ni están libres de errores, y detectar errores es más difícil para los usuarios menos experimentados. El santo grial de la analítica es la precisión combinada con una comprensión matizada del panorama empresarial: habilidades que son imposibles de automatizar a menos que alcancemos algún tipo de IA «general».
La segunda tendencia que es fundamental para los profesionales de datos empresariales es avanzar hacia un único sistema de IA tipo paraguas capaz de integrar análisis de ventas, empleados, finanzas y productos en una única solución. Podría aportar un inmenso valor empresarial debido al ahorro de costes (deshacerse de software independiente) y también ayudar con los esfuerzos de democratización de los datos.
¿Puede explicarnos más detalladamente el papel del aprendizaje automático y la inteligencia artificial en el análisis de datos de próxima generación para empresas?
La IA generativa de alguna manera trazó una línea artificial y arbitraria entre el análisis de próxima generación (impulsado por la Generación de IA) y los sistemas de IA “heredados” (cualquier cosa anterior a la Generación de IA). En el discurso público sobre la IA, la gente suele pasar por alto el hecho de que la IA “tradicional” no es un legado obsoleto; La generación de IA es inteligente sólo en la superficie; y ambos campos son en realidad complementarios.
En mi respuesta anterior, destaqué los principales desafíos del uso de modelos generativos de IA para el análisis de datos empresariales. La IA de generación no es, estrictamente hablando, inteligencia: es una tecnología estocástica que funciona según la probabilidad estadística, que es su máxima limitación.
La mayor disponibilidad de datos y las soluciones innovadoras de extracción de datos fueron los principales impulsores de la “revolución” de la Generación AI; sin embargo, no se pueden lograr mayores avances simplemente añadiendo más datos y potencia computacional. Avanzando hacia una inteligencia artificial “general”, los desarrolladores tendrán que reconsiderar lo que significan “inteligencia” y “razonamiento”. Antes de que esto suceda, hay pocas posibilidades de que los modelos generativos aporten al análisis de datos algo más sustancial de lo que ya han aportado.
Al decir esto, no quiero decir que no existan métodos para mejorar la precisión de la IA generativa y mejorarla en tareas de dominios específicos. Varias aplicaciones ya lo hacen. Por ejemplo, hay barreras de seguridad entre un LLM y los usuarios, lo que garantiza que el modelo proporcione resultados que sigan las reglas de la organización, mientras que la generación aumentada de recuperación (RAG) se emplea cada vez más como una alternativa al ajuste fino del LLM. RAG se basa en un conjunto de tecnologías, como bases de datos vectoriales (piense en Pinecone, Weaviate, Qdrant, etc.), marcos (LlamaIndex, LangChain, Chroma) y herramientas de análisis semántico y búsqueda de similitudes.
Sin embargo, estos enfoques benefician principalmente a aplicaciones de la Generación de IA, como los chatbots. Desafortunadamente, tienen menos relevancia para el campo que estamos discutiendo actualmente: el análisis de negocios.
¿Cómo pueden las empresas aprovechar eficazmente los big data para obtener conocimientos prácticos e impulsar decisiones estratégicas?
En la economía digital globalizada de hoy, las empresas no tienen la opción de evitar las decisiones basadas en datos, a menos que operen en un mercado local muy confinado y sean de tamaño limitado. Para impulsar la competitividad, un número cada vez mayor de empresas recopilan no sólo datos de los consumidores que pueden obtener de sus propios canales, sino también información disponible públicamente en la web para inteligencia de precios, estudios de mercado, análisis de la competencia, ciberseguridad y otros fines.
Hasta cierto punto, las empresas podrían intentar salirse con la suya sin tomar decisiones basadas en datos; sin embargo, cuando el ritmo de crecimiento aumenta, las empresas que se basan en el instinto inevitablemente empiezan a quedarse atrás. Lamentablemente, no existen enfoques universales para aprovechar los datos de forma eficaz y que se adapten a todas las empresas. Cualquier negocio tiene que partir de lo básico: primero, definir el problema empresarial; en segundo lugar, responder, muy concretamente, qué tipo de datos podrían ayudar a solucionarlo. Más del 75% de los datos que recopilan las empresas terminan como «datos oscuros.” Por lo tanto, decidir qué datos no necesita no es menos importante que decidir qué datos necesita.
¿Cuáles son algunos de los desafíos que las empresas podrían enfrentar al implementar soluciones de análisis de datos de próxima generación y cómo pueden superarlos?
Esta pregunta es muy amplia y requiere un artículo largo para responderla. Todo depende de la solución y de la empresa, así que por ahora lo dejo fuera.
¿De qué manera imagina que evolucionará la visualización de datos en el contexto de la inteligencia y el análisis de negocios?
La mayoría de las soluciones de visualización de datos actuales tienen funcionalidades impulsadas por IA que brindan a los usuarios una vista más dinámica y una precisión mejorada. Además, la automatización impulsada por la IA también permite a las empresas analizar patrones y generar información a partir de conjuntos de datos más grandes y complejos, al tiempo que libera a los analistas de tareas de visualización mundanas.
Creo que las soluciones de visualización de datos tendrán que evolucionar hacia alternativas más democráticas y amigables para los novatos, llevando conocimientos de datos más allá de los equipos de datos y hacia los departamentos de ventas, marketing, productos y atención al cliente. Desafortunadamente, es difícil decir cuándo podríamos esperar que lleguen tales herramientas. Hasta ahora, el foco de la industria no ha sido encontrar la mejor solución de visualización. Hay muchas herramientas diferentes disponibles en el mercado y todas tienen sus ventajas y desventajas.
¿Podría hablarnos de la importancia de la privacidad y la seguridad de los datos en la era del análisis avanzado y de cómo las empresas pueden garantizar el cumplimiento y al mismo tiempo aprovechar los datos de forma eficaz?
La privacidad y la seguridad de los datos no eran menos importantes antes de la era del análisis avanzado. Sin embargo, la mayor escala y complejidad de las actividades de recopilación y procesamiento de datos también aumentaron los riesgos relacionados con la mala gestión de los datos y las fugas de datos confidenciales. Hoy en día, no se puede subestimar la importancia de una gobernanza adecuada de los datos: los errores pueden dar lugar a sanciones financieras, responsabilidad legal, daños a la reputación y desconfianza de los consumidores.
En algunos casos, las empresas deliberadamente “toman atajos” para reducir costos u obtener otros beneficios comerciales, lo que resulta en una mala gestión de los datos. Sin embargo, en muchos casos, la conducta inadecuada en materia de datos no es intencionada.
Tomemos un ejemplo de desarrolladores de Gen AI que necesitan cantidades masivas de datos multifacéticos para entrenar y probar modelos de ML. Al recopilar datos a tal escala, es fácil para una empresa pasar por alto que partes de estos conjuntos de datos contienen datos personales o material protegido por derechos de autor que la empresa no estaba autorizada a recopilar y procesar. Peor aún, obtener el consentimiento de miles de usuarios de Internet que técnicamente podrían considerarse propietarios de “derechos de autor” es prácticamente imposible.
Entonces, ¿cómo pueden las empresas garantizar el cumplimiento? Nuevamente, depende del contexto, como el país de origen de la empresa. Los regímenes de datos de EE. UU., Reino Unido y la UE son bastante diferentes, siendo la UE el más estricto. La recién publicada Ley de IA de la UE definitivamente tendrá un efecto adicional en la gobernanza de datos, ya que aborda tanto a los desarrolladores como a los implementadores de sistemas de IA dentro de la UE. Aunque los modelos generativos se encuentran en la zona de bajo riesgo, en ciertos casos aún podrían estar sujetos a requisitos de transparencia, lo que obliga a los desarrolladores a revelar las fuentes de datos en las que se han entrenado los sistemas de IA, así como los procedimientos de gestión de datos.
Sin embargo, existen principios básicos que se aplican a cualquier empresa. En primer lugar, las empresas deben evaluar exhaustivamente la naturaleza de los datos que planean obtener. En segundo lugar, más datos no equivalen a mejores datos: decidir qué datos aportan valor agregado para el negocio y omitir datos que sean excesivos o innecesarios es el primer paso hacia un mejor cumplimiento y menos riesgos en la gestión de datos.
¿Qué tecnologías emergentes cree que tendrán el mayor impacto en el futuro de la inteligencia empresarial y el análisis de datos?
Supongo que ya respondí esto en la primera y segunda pregunta de la entrevista, así que lo dejaré de lado por ahora.
¿Cómo pueden las empresas fomentar una cultura de toma de decisiones basada en datos en todas sus organizaciones?
El primer paso es, por supuesto, sentar las bases de los datos: construir la Plataforma de datos del cliente (CDP), que integra datos estructurados y limpios de diversas fuentes que utiliza la empresa. Para tener éxito, una plataforma de este tipo debe incluir acceso sin código a los datos para partes interesadas no técnicas, y esto no es una tarea fácil de lograr.
El acceso sin código significa que la plataforma (o “solución”) elegida debe contener tanto una interfaz SQL para usuarios de datos experimentados como algún tipo de función de “arrastrar y soltar” para principiantes. En Oxylabs, elegimos Apache Superset para avanzar en nuestros análisis de autoservicio. Sin embargo, no existe una solución que se adapte a cualquier empresa y sólo tendría ventajas y ningún inconveniente. Además, estas soluciones requieren un modelado de datos bien documentado.
Cuando se cuentan con las aplicaciones necesarias, el segundo gran desafío es desarrollar la alfabetización en datos y la confianza de los usuarios no técnicos. Requiere una formación adecuada para garantizar que los empleados manejen los datos, los interpreten y obtengan información correctamente. ¿Por qué es esto un desafío? Porque es un proceso lento y les quitará tiempo a los equipos de datos.
Fomentar una cultura basada en datos no es un proyecto aislado: para convertir los datos en acción, necesitará un cambio cultural dentro de la organización, así como esfuerzos constantes de seguimiento y perfeccionamiento para garantizar que los empleados no técnicos se sientan seguros a la hora de implementar datos en las decisiones cotidianas. El apoyo de la gestión y la cooperación bien establecida entre equipos son clave para que el análisis de autoservicio (o la democratización de datos, como a menudo se le llama) funcione para su empresa.
¿Qué consejo daría a las empresas que buscan mantenerse a la vanguardia en la adopción e implementación de herramientas y técnicas de análisis de datos de próxima generación?
Invertir. Si una empresa quiere sinceramente mantenerse a la vanguardia, la estrategia de datos y la toma de decisiones basada en datos no son el mejor ámbito para ahorrar dinero.