¡Los datos no tienen foso! | Hacia la ciencia de los datos

De la IA y los proyectos basados ​​en datos, la importancia de los datos y su calidad se ha reconocido como crítico para el éxito de un proyecto. Algunos incluso podrían decir que los proyectos solían tener un solo punto de falla: ¡datos!

El infame “Garbage adentro, basura fuera” fue probablemente la primera expresión que tomó por asalto la industria de los datos (secundada por “los datos son el nuevo petróleo”). Todos sabíamos si los datos no estaban bien estructurados, limpiados y validados, los resultados de cualquier análisis y aplicaciones potenciales estaban condenadas a ser inexactas y peligrosamente incorrectas.

Por esa razón, a lo largo de los años, numerosos estudios e investigadores se centraron en definir los pilares de la calidad de los datos y qué métricas se pueden usar para evaluarlo.

A Documento de investigación de 1991 Identificaron 20 dimensiones de calidad de datos diferentes, todas ellas muy alineadas con el enfoque principal y el uso de datos en el momento: bases de datos estructuradas. Avanzar rápidamente a 2020, el documento de investigación sobre las dimensiones de la calidad de los datos (DDQ)identificó un número sorprendente de dimensiones de calidad de datos (¡alrededor de 65!), Reflejando no solo cómo la definición de calidad de datos debería evolucionar constantemente, sino también cómo se usaron los datos en sí.

Dimensiones de la calidad de los datos: hacia los datos de calidad por diseño, 1991 Wang

No obstante, con el aumento de la exageración de aprendizaje profundo, la idea de que la calidad de los datos ya no importaba en la mente de los ingenieros más expertos en tecnología. El deseo de creer que los modelos y la ingeniería solos fueron suficientes para ofrecer soluciones poderosas han existido durante bastante tiempo. Felizmente para nosotros, profesionales de datos entusiastas, 2021/2022 marcó el aumento de AI centrada en datos! Este concepto no está lejos del clásico “Basura adentro, basura”reforzando la idea de que en el desarrollo de la IA, si tratamos los datos como el elemento de la ecuación que necesita ajustes, lograremos un mejor rendimiento y resultados que ajustando los modelos solo (¡después de todo, no se trata solo de ajuste de hiperparameter).

Entonces, ¿por qué podemos escuchar nuevamente los rumores de que los datos no tienen foso?

La capacidad de los modelos de idiomas grandes (LLMS) para reflejar el razonamiento humano nos ha sorprendido. Debido a que están capacitados en inmensos corpus combinados con el poder computacional de las GPU, las LLM no solo son capaces de generar un buen contenido, sino un contenido que puede parecerse a nuestro tono y forma de pensar. Debido a que lo hacen muy bien, y a menudo con un contexto incluso mínimo, esto había llevado a muchos a una conclusión audaz:

“Los datos no tienen foso”.
“Ya no necesitamos datos propietarios para diferenciar”.
“Solo usa un modelo mejor”.

¿La calidad de los datos tiene una oportunidad contra los agentes de LLM y AI?

En mi opinión, ¡absolutamente sí! De hecho, independientemente de las creencias actuales de que los datos no plantean diferenciación en la edad de LLMS y los agentes de IA, los datos siguen siendo esenciales. Incluso desafiaré diciendo que los agentes más capaces y responsables se vuelven, ¡su dependencia de los buenos datos se vuelve aún más crítica!

Entonces, ¿por qué sigue importa la calidad de los datos?

Comenzando con la basura más obvia, basura y basura. No importa cuán más inteligentes sean sus modelos y agentes si no pueden notar la diferencia entre lo bueno y lo malo. Si los datos malos o las entradas de baja calidad se alimentan al modelo, obtendrá respuestas incorrectas y resultados engañosos. Los LLM son modelos generativos, lo que significa que, en última instancia, simplemente reproducen patrones que han encontrado. Lo que es más preocupante que nunca es que los mecanismos de validación en los que una vez confiamos ya no están en su lugar en muchos casos de uso, lo que lleva a resultados potencialmente engañosos.

Además, estos modelos no tienen conciencia del mundo real, de manera similar a otros modelos generativos previamente dominantes. Si algo está desactualizado o incluso sesgos, simplemente no lo reconocerán, a menos que estén entrenados para hacerlo, y eso comienza con datos de alta calidad, validados y cuidadosamente seleccionados.

Más particularmente, cuando se trata de agentes de IA, que a menudo dependen de herramientas como la memoria o la recuperación de documentos para trabajar en las actividades, la importancia de los grandes datos es aún más obvia. Si su conocimiento se basa en información poco confiable, no podrán realizar una buena toma de decisiones. Obtendrá una respuesta o un resultado, ¡pero eso no significa que sea útil!

¿Por qué los datos siguen siendo un foso?

Si bien las barreras como la infraestructura computacional, la capacidad de almacenamiento, así como la experiencia especializada se mencionan como relevantes para mantenerse competitivos en un futuro dominado por agentes de IA y aplicaciones basadas en LLM, La accesibilidad de los datos sigue siendo una de las más frecuentemente citadas como primordiales para la competitividad. He aquí por qué:

  1. El acceso es potencia
    En dominios con datos restringidos o propietarios, como atención médica, abogados, flujos de trabajo empresariales o incluso datos de interacción del usuario, los agentes de IA solo pueden ser construidos por aquellos con acceso privilegiado a los datos. Sin él, las aplicaciones desarrolladas serán a ciegas volar.
  2. La web pública no será suficiente
    Los datos públicos gratuitos y abundantes se desvanecen, no porque ya no esté disponible, sino porque su calidad se desvanece rápidamente. Los conjuntos de datos públicos de alta calidad se han extraído en gran medida con los datos generados por algoritmos, y parte de lo que queda está detrás de los paredes de pago o protegido por restricciones de API.
    Además, la plataforma principal está cerrando cada vez más el acceso a favor de la monetización.
  3. El envenenamiento por datos es el nuevo vector de ataque
    A medida que crece la adopción de modelos fundamentales, los ataques cambian del código del modelo al entrenamiento y el ajuste del modelo en sí. ¿Por qué? ¡Es más fácil de hacer y más difícil de detectar!
    Estamos entrando en una era en la que los adversarios no tienen que romper el sistema, solo necesitan contaminar los datos. Desde sutil información errónea hasta el etiquetado malicioso, los ataques de envenenamiento de datos son una realidad para la que las organizaciones que buscan adoptar agentes de IA deberán estar preparados. El control del origen de los datos, la tubería y la integridad ahora es esencial para construir una IA confiable.

¿Cuáles son las estrategias de datos para la IA confiable?

Para mantenerse por adelantado a la innovación, debemos repensar cómo tratar los datos. Los datos ya no son solo un elemento del proceso, sino una infraestructura central para la IA. Construir e implementar la IA se trata de código y algoritmos, pero también el ciclo de vida de datos: cómo se recopila, filtra y limpia, protege y, lo más importante, se usa. Entonces, ¿cuáles son las estrategias que podemos adoptar para hacer un mejor uso de los datos?

  1. Gestión de datos como infraestructura central
    Trate los datos con la misma relevancia y prioridad que en la nube de la infraestructura o la seguridad. Esto significa centralizar la gobernanza, implementar controles de acceso y garantizar que los flujos de datos sean rastreables y auditables. Sistemas de diseño de organizaciones listas para la AI donde los datos son una entrada intencional y administrada, no una ocurrencia tardía.
  2. Mecanismos de calidad de datos activos
    ¡La calidad de sus datos define cuán confiables y desempeñados son sus agentes! Establezca tuberías que detecten automáticamente anomalías o registros divergentes, apliquen los estándares de etiquetado y controlen la deriva o la contaminación. La ingeniería de datos es el futuro y fundamental para la IA. Las necesidades de datos no solo para ser recopiladas sino más importantes, ¡curadas!
  3. Datos sintéticos para llenar los vacíos y preservar la privacidad
    Cuando los datos reales son limitados, sesgados o sensibles a la privacidad, Los datos sintéticos ofrecen una alternativa poderosa. Desde la simulación hasta el modelado generativo, los datos sintéticos le permiten crear conjuntos de datos de alta calidad para entrenar modelos. Es clave para desbloquear escenarios donde la verdad del suelo es costosa o restringida.
  4. Diseño defensivo contra el envenenamiento de datos
    La seguridad en AI ahora comienza en la capa de datos. Implementar medidas como la verificación de la fuente, el verso y la validación en tiempo real para protegerse contra el envenenamiento y la manipulación sutil. No solo para los platos de datos, sino también para cualquier indicación que ingrese a los sistemas. Esto es especialmente importante en los sistemas que aprenden de la entrada del usuario o los alimentos de datos externos.
  5. Bucles de retroalimentación de datos
    Los datos no deben verse como inmutables en sus sistemas de IA. ¡Debería poder evolucionar y adaptarse con el tiempo! Los bucles de retroalimentación son obligatorios para crear un sentido de evolución cuando se trata de datos. Cuando se combinan con filtros de calidad sólidos, estos bucles hacen que sus soluciones basadas en IA sean más inteligentes y más alineadas con el tiempo.

En resumen, los datos son el foso y el futuro de la defensiva de la solución de IA. La IA centrada en los datos es más importante que nunca, incluso si la exageración dice lo contrario. Entonces, ¿debería la IA ser todo sobre el bombo? Solo los sistemas que realmente alcanzan la producción pueden ver más allá de It.