Cómo Anomalo resuelve problemas de calidad de datos no estructurados para ofrecer activos de confianza para AI con AWS

Esta publicación está coescrita con Vicky Andonova y Jonathan Karon de Anomalo.

La IA generativa ha evolucionado rápidamente de una novedad a un poderoso impulsor de la innovación. Desde resumir documentos legales complejos hasta impulsar asistentes avanzados basados en el chat, las capacidades de IA se están expandiendo a un ritmo cada vez mayor. Mientras modelos de idiomas grandes (LLMS) continúan empujando nuevos límites, los datos de calidad siguen siendo el factor decisivo para lograr el impacto del mundo real.

Hace un año, parecía que el diferenciador principal en aplicaciones de IA generativas sería quién podría permitirse construir o usar el modelo más grande. Pero con los avances recientes en los costos de capacitación de modelos base (como Deepseek-R1) y mejoras continuas de rendimiento de precios, los modelos poderosos se están convirtiendo en una mercancía. El éxito en la IA generativa se está volviendo menos sobre la construcción del modelo correcto y más sobre encontrar el caso de uso correcto. Como resultado, el borde competitivo está cambiando hacia el acceso a los datos y la calidad de los datos.

En este entorno, las empresas están preparadas para sobresalir. Tienen una mina de oro oculta de décadas de texto no estructurado, todo de las transcripciones de llamadas e informes escaneados para apoyar boletos y registros de redes sociales. El desafío es cómo usar esos datos. Transformar archivos no estructurados, mantener el cumplimiento y mitigar los problemas de calidad de los datos se convierten en obstáculos críticos cuando una organización pasa de los pilotos de IA a las implementaciones de producción.

En esta publicación, exploramos cómo puedes usar Anomalo con Servicios web de Amazon (AWS) AI y aprendizaje automático (Ai/ml) para perfilar, validar y limpiar las colecciones de datos no estructuradas para transformar su lago de datos en una fuente confiable para las iniciativas de IA listas para la producción, como se muestra en la siguiente figura.

El desafío: analizar documentos empresariales no estructurados a escala

A pesar de la adopción generalizada de IA, muchos proyectos de IA empresariales fallan debido a la mala calidad de los datos y los controles inadecuados. Gartner predice que el 30% de los proyectos de IA generativos serán abandonados en 2025. Incluso las organizaciones más basadas en datos se han centrado principalmente en utilizar datos estructurados, dejando contenido no estructurado subutilizado y sin superponer en lagos de datos o sistemas de archivos. Sin embargo, más del 80% de los datos empresariales no están estructurados (según Investigación de la escuela MIT Sloan), que abarca todo, desde contratos legales y presentaciones financieras hasta publicaciones en las redes sociales.

Para los principales oficiales de información (CIO), los principales oficiales técnicos (CTO) y los principales oficiales de seguridad de la información (CISO), los datos no estructurados representan riesgos y oportunidades. Antes de poder usar contenido no estructurado en aplicaciones de IA generativas, debe abordar los siguientes obstáculos críticos:

Extracción – El reconocimiento de caracteres ópticos (OCR), el análisis y la generación de metadatos pueden ser poco confiables si no se automatizan y validan. Además, si la extracción es inconsistente o incompleta, puede dar lugar a datos malformados.
Cumplimiento y seguridad – Manejo de información de identificación personal (PII) o propiedad intelectual (IP) de propiedad exige una gobernanza rigurosa, especialmente con el Ley de AI de la UE, Ley de AI de Colorado, Regulación general de protección de datos (GDPR), Ley de privacidad del consumidor de California (CCPA), y regulaciones similares. La información confidencial puede ser difícil de identificar en el texto no estructurado, lo que lleva al mal manejo inadvertido de esa información.
Calidad de datos -Los datos incompletos, desagradables, duplicados, fuera de tema o mal escritos pueden contaminar sus modelos de IA generativos y Generación aumentada de recuperación Contexto (trapo), produciendo salidas alucinadas, desactualizadas, inapropiadas o engañosas. Asegurarse de que sus datos sean de alta calidad ayuda a mitigar estos riesgos.
Escalabilidad y costo -La capacitación o los modelos de ajuste fino en los datos ruidosos aumenta los costos de calculación de calcular al crecer innecesariamente el conjunto de datos de capacitación (los costos de cálculo de capacitación tienden a crecer linealmente con el tamaño del conjunto de datos), y el procesamiento y el almacenamiento de datos de baja calidad en una base de datos vectorial para la capacidad de procesamiento y almacenamiento de desechos de desechos de trapo.

En resumen, las iniciativas de IA generativas a menudo falsifican, no porque el modelo subyacente es insuficiente, pero debido a que la tubería de datos existente no está diseñada para procesar datos no estructurados y aún cumplir con los requisitos de ingestión y cumplimiento de alta calidad y alta calidad. Muchas compañías se encuentran en las primeras etapas de abordar estos obstáculos y enfrentan estos problemas en sus procesos existentes:

Manual y lento -El análisis de grandes colecciones de documentos no estructurados se basa en la revisión manual de los empleados, creando procesos que requieren mucho tiempo que retrasen los proyectos.
Propenso a los errores – La revisión humana es susceptible a errores e inconsistencias, lo que lleva a la exclusión inadvertida de datos críticos y la inclusión de datos incorrectos.
Intensivo -El proceso de revisión del documento manual requiere un tiempo significativo del personal que podría gastar mejor en actividades comerciales de mayor valor. Los presupuestos no pueden apoyar el nivel de personal necesario para examinar las colecciones de documentos empresariales.

Aunque los procesos de análisis de documentos existentes proporcionan información valiosa, no son lo suficientemente eficientes o precisos como para satisfacer las necesidades comerciales modernas para la toma de decisiones oportunas. Las organizaciones necesitan una solución que pueda procesar grandes volúmenes de datos no estructurados y ayudar a mantener el cumplimiento de las regulaciones al tiempo que protege la información confidencial.

La solución: un enfoque de grado empresarial para la calidad de datos no estructurada

Anomalo utiliza una pila altamente segura y escalable proporcionada por AWS que puede usar para detectar, aislar y abordar problemas de calidad de datos en datos no estructurados, en minutos en lugar de semanas. Esto ayuda a sus equipos de datos a ofrecer aplicaciones de IA de alto valor más rápido y con menos riesgo. La arquitectura de la solución de Anomalo se muestra en la siguiente figura.

Diagrama de soluciones

Ingestión automatizada y extracción de metadatos – Anomalo automatiza el análisis de OCR y texto para archivos PDF, presentaciones de PowerPoint y documentos de Word almacenados en Servicio de almacenamiento simple de Amazon (Amazon S3) usando escala automática Amazon Elastic Cloud Compute (Amazon EC2) instancias, Servicio de Kubernetes de Amazon Elastic (Amazon EKS), y Registro de contenedores elásticos de Amazon (Amazon ECR).
Observabilidad de datos continuos – Anomalo inspecciona cada lote de datos extraídos, detectando anomalías como texto truncado, campos vacíos y duplicados antes de que los datos lleguen a sus modelos. En el proceso, monitorea la salud de su tubería no estructurada, marcando aumentos en documentos defectuosos o deriva de datos inusuales (por ejemplo, formatos de archivo nuevos, un número inesperado de adiciones o deleciones, o cambios en el tamaño del documento). Con esta información revisada e informada por Anomalo, sus ingenieros pueden pasar menos tiempo revisando manualmente a través de registros y más tiempo optimizando las características de IA, mientras que los CISO obtienen visibilidad en los riesgos relacionados con los datos.
Gobierno y cumplimiento -La detección de problemas incorporada y la aplicación de políticas ayudan a enmascarar o eliminar PII y lenguaje abusivo. Si un lote de documentos escaneados incluye direcciones personales o diseños propietarios, se puede marcar para una revisión legal o de seguridad, minimizando el riesgo regulatorio y de reputación. Puede usar Anomalo para definir problemas y metadatos personalizados que se extraerán de documentos para resolver una amplia gama de necesidades de gobierno y comerciales.
IA escalable en AWS – Anomalo usa Roca madre de Amazon Para dar a las empresas una opción de LLMS flexibles y escalables para analizar la calidad del documento. La arquitectura moderna de Anomalo se puede implementar como software como servicio (SaaS) o a través de un Nube privada virtual de Amazon (Amazon VPC) Conexión para satisfacer sus necesidades operativas y de seguridad.
Datos confiables para aplicaciones comerciales de IA – La capa de datos validada proporcionada por Anomalo y AWS Glue ayuda a asegurarse de que solo el contenido limpio y aprobado fluya a su aplicación.
Admite su arquitectura de IA generativa -Ya sea que use el ajuste fino o continuo de la capacitación en un LLM para crear un experto en la materia, almacenar contenido en una base de datos vectorial para RAG o experimentar con otras arquitecturas generativas de IA, asegurándose de que sus datos estén limpios y validados, mejore la producción de aplicaciones, preserve la confianza de la marca y mitigue los riesgos comerciales.

Impacto

El uso de los servicios de Anomalo y AWS AI/ML para datos no estructurados proporciona estos beneficios:

Carga operativa reducida -Las reglas y el motor de evaluación estándar de Anomalo ahorran meses de tiempo de desarrollo y mantenimiento continuo, liberando el tiempo para diseñar nuevas características en lugar de desarrollar reglas de calidad de datos.
Costos optimizados -Entrenamiento de modelos LLMS y ML en datos de baja calidad desperdicia una preciosa capacidad de GPU, mientras que la vectorización y almacenamiento de esos datos para RAG aumenta los costos operativos generales, y ambos degradan el rendimiento de la aplicación. El filtrado de datos temprano reduce estos gastos ocultos.
Tiempo más rápido para las ideas -Anomalo clasifica y etiqueta automáticamente el texto no estructurado, dando a los científicos de datos ricos datos para girar nuevos prototipos generativos o paneles sin el trabajo previo del etiquetado que consume mucho tiempo.
Cumplimiento y seguridad fortalecidos – Identificar PII y adherirse a las reglas de retención de datos está integrada en la tubería, admitiendo políticas de seguridad y reduciendo la preparación necesaria para auditorías externas.
Crear un valor duradero – El panorama generativo de IA continúa evolucionando rápidamente. Aunque las inversiones de LLM y la arquitectura de aplicaciones pueden depreciarse rápidamente, los datos confiables y seleccionados son una apuesta segura que no se desperdiciará.

Conclusión

La IA generativa tiene el potencial de ofrecer un valor masivo:Gartner estima el 15-20% de aumento de los ingresos, el 15% de ahorro de costos y el 22% de mejora de la productividad. Para lograr estos resultados, sus aplicaciones deben construirse sobre una base de datos confiables, completos y oportunos. Al ofrecer una solución de escala empresarial fácil de usar para monitoreo de calidad de datos estructurado y no estructurado, Anomalo lo ayuda a entregar más proyectos de IA a la producción más rápido mientras cumple con los requisitos de usuario y de gobierno.

¿Interesado en aprender más? Verificar Solución de calidad de datos no estructurada de Anomalo y solicitar una demostración o Contáctenos Para una discusión en profundidad sobre cómo comenzar o escalar su viaje generativo de IA.

Sobre los autores

Vicky Andonova es el GM de IA generativa en Anomalo, la compañía reinventa la calidad de los datos empresariales. Como miembro del equipo fundador, Vicky ha pasado los últimos seis años pione en las iniciativas de aprendizaje automático de Anomalo, transformando modelos AI avanzados en ideas procesables que capacitan a las empresas para confiar en sus datos. Actualmente, lidera un equipo que no solo trae productos de IA generativos innovadores al mercado, sino que también está construyendo una solución de monitoreo de calidad de datos de primera en clase específicamente diseñada para datos no estructurados. Anteriormente, en Instacart, Vicky construyó la plataforma de experimentación de la compañía y dirigió iniciativas de toda la empresa a la calidad de la entrega de comestibles. Ella tiene un Be de la Universidad de Columbia.

Jonathan Karon Leads Partner Innovation en Anomalo. Trabaja en estrecha colaboración con las empresas en todo el ecosistema de datos para integrar el monitoreo de la calidad de los datos en herramientas y flujos de trabajo clave, ayudando a las empresas a lograr prácticas de datos de alto funcionamiento y aprovechar tecnologías novedosas más rápido. Antes de Anomalo, Jonathan creó la observabilidad de la aplicación móvil, la inteligencia de datos y los productos DevSecops en New Relic, y fue jefe de producto en una inicio generativo de ventas de IA y éxito del cliente. Tiene una licenciatura en ciencias cognitivas de Hampshire College y ha trabajado con IA y tecnología de exploración de datos a lo largo de su carrera.

Mahesh Biradar es un arquitecto senior de soluciones en AWS con una historia en la industria de TI y servicios. Ayuda a las PYME en los Estados Unidos a cumplir sus objetivos comerciales con la tecnología en la nube. Tiene una licenciatura en ingeniería de VJTI y tiene su sede en la ciudad de Nueva York (EE. UU.)

Emad Tawfik es un arquitecto sazonado de soluciones senior en Amazon Web Services, con más de una década de experiencia. Su especialización se encuentra en el ámbito del almacenamiento y las soluciones en la nube, donde se destaca en la elaboración de arquitecturas rentables y escalables para los clientes.

Cómo Anomalo resuelve problemas de calidad de datos no estructurados para ofrecer activos de confianza para AI con AWS

ByEquipo de 7 minutos

El desafío: analizar documentos empresariales no estructurados a escala

La solución: un enfoque de grado empresarial para la calidad de datos no estructurada

Impacto

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Cómo construir un sistema de enrutamiento LLM económico con NadirClaw utilizando la clasificación de indicaciones locales y el cambio de modelo Gemini

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

You missed

Caminar 8.500 pasos al día es la clave para no recuperar el peso perdido, sugiere una investigación

Los demócratas tienen un plan para restaurar los subsidios de Obamacare el próximo año

La startup de software cuántico Algorithmiq recauda 18 millones de euros y traslada su sede mundial de Helsinki a Milán

La fragata española Victoria escolta al USS Gerald R. Ford por el Estrecho de Gibraltar