Huntington Bank: redacción de datos confidenciales de más de 400 millones de documentos con AWS

Cuando su repositorio de documentos contiene cientos de millones de archivos acumulados durante casi una década, ¿cómo puede encontrar y redactar sistemáticamente datos confidenciales de clientes sin tardar años en completarlos? Este era el desafío que enfrentaba The Huntington National Bank (Huntington), uno de los 10 principales bancos de Estados Unidos.

Redacción de información confidencial a escala

Desde 2015, el sistema de gestión de documentos de Huntington ha almacenado de forma segura cientos de millones de documentos en las instalaciones. En 2025, como parte de una iniciativa de cumplimiento proactivo, Huntington se propuso procesar los documentos en este sistema y redactar datos confidenciales. Estos documentos vienen en diferentes formatos, por lo que la solución necesitaba flexibilidad para manejar diversos tipos de archivos y al mismo tiempo ofrecer el rendimiento necesario para procesar millones de documentos rápidamente.

Las estimaciones originales indicaban que este esfuerzo llevaría años. Sin embargo, al diseñar un flujo de trabajo de redacción escalable utilizando Amazon Textract, Amazon SageMaker, AWS Step Functions y AWS Lambda, Huntington redujo este cronograma a meses.

Descripción general de la solución

Antes de examinar la implementación técnica, veamos los requisitos básicos que Huntington estableció para este proyecto. Si se enfrenta a un desafío similar de procesamiento de documentos a gran escala, estos requisitos pueden servirle como punto de partida para el diseño de su propia solución:

Los datos deben cifrarse en reposo y en tránsito. Las ubicaciones donde se almacenan o se accede a los datos deben cumplir estrictos requisitos de acceso. Los servicios utilizados deben estar dentro del alcance del cumplimiento de PCI DSS. Las salidas se deben replicar en los almacenes de datos locales. La precisión de la redacción debe alcanzar o superar el 95 % para cumplir con los requisitos de cumplimiento.

El siguiente diagrama ilustra la arquitectura de la solución de alto nivel.

Mover datos de forma segura y con confianza

El primer objetivo de Huntington fue mover documentos de un recurso compartido de archivos local a un depósito de Amazon Simple Storage Service (Amazon S3). Mover documentos es sencillo, pero este esfuerzo requirió transferir más de 400 millones de documentos, cifrados en tránsito y en reposo. Para lograr esto, Huntington utilizó AWS DataSync, AWS Direct Connect, Amazon S3 y AWS Key Management Service (AWS KMS).

AWS DataSync se puede implementar como agente en su centro de datos local para monitorear una fuente configurada, como un recurso compartido de archivos SMB. Si bien enviar documentos a AWS era fundamental para su procesamiento, AWS DataSync también admite la sincronización de datos en las instalaciones, que era otro requisito clave para este proyecto.

Arquitectura de transferencia de datos que muestra AWS DataSync moviendo documentos desde un recurso compartido de archivos local a Amazon S3 a través de AWS Direct Connect

Amazon Textract es un servicio de aprendizaje automático de AWS que extrae texto, tablas y formularios de documentos escaneados. Las instituciones financieras lo utilizan para procesar automáticamente documentos como estados de cuenta o solicitudes de préstamos y luego identificar datos confidenciales como números de Seguro Social, números de cuenta y direcciones personales. La siguiente factura de muestra demuestra esta capacidad.

Factura de muestra con campos sensibles detectados

Salida de Amazon Textract que resalta los campos detectados con cuadros delimitadores en la factura

Amazon Textract detecta varios campos de un documento y proporciona coordenadas de los campos detectados y otros metadatos dentro de una salida JSON.

Huntington utilizó Amazon Textract en un proceso orquestado con AWS Step Functions. Este enfoque redujo el tiempo de revisión manual y al mismo tiempo mejoró la precisión en la detección de información confidencial en grandes volúmenes de documentos.

Rendimiento de detección de escala

Los canales automatizados para el procesamiento de documentos son valiosos, pero el procesamiento de documentos secuencialmente habría extendido el cronograma del proyecto a años. Para alcanzar su objetivo, Huntington necesitaba procesar millones de documentos cada día.

Escalar a este nivel requirió abordar dos consideraciones principales: maximizar los trabajos simultáneos de Amazon Textract dentro de las cuotas de servicio y controlar las tasas de solicitudes para evitar limitaciones.

Los servicios de AWS tienen cuotas que se pueden ajustar mediante límites estrictos y flexibles. La cuota de trabajos por segundo de Amazon Textract se puede aumentar enviando una solicitud a través de la consola de cuotas de servicio de AWS.

Para maximizar el rendimiento frente a la cuota de servicio, Huntington utilizó el estado del mapa integrado de AWS Step Functions, que procesa colecciones de entradas en JSON, CSV u otros formatos. El equipo organizó documentos en Amazon S3 en una colección JSON y ejecutó el estado del mapa en modo distribuido para una mayor simultaneidad. Para realizar un seguimiento del progreso de la canalización, utilizaron resúmenes de ejecución de mapas de AWS Step Functions junto con paneles de control de Amazon CloudWatch para monitorear los tiempos de respuesta, los recuentos de aceleración, los éxitos y las tasas de error.

Para abordar una posible limitación, Huntington supervisó su panel de CloudWatch para verificar los recuentos de solicitudes exitosas y los recuentos limitados de Amazon Textract. Según fue necesario, ajustaron los límites de concurrencia para las ejecuciones de flujos de trabajo secundarios para confirmar que se mantenían por debajo de la cuota de servicio de Amazon Textract y al mismo tiempo mantenían un alto rendimiento. Cuando los trabajos se completaron exitosamente, los campos y metadatos detectados se escribieron en un depósito para su posterior revisión. El siguiente diagrama muestra este enfoque:

Diagrama de flujo de trabajo de AWS Step Functions que muestra documentos de procesamiento de estado de mapas distribuidos a través de Amazon Textract con monitoreo de CloudWatch

El bloque de espera dentro de la función de paso verificó que el proceso estaba listo para continuar con la escritura de metadatos del trabajo y continuar con la siguiente invocación de Amazon Textract. Cuando no hay fallas, la máquina de estados finaliza con un estado aprobado. Cuando se producen fallas, AWS Step Functions escribe en un registro para su revisión y reprocesamiento humanos.

Redactar información confidencial detectada

Hasta este punto, el proceso se centró en detectar datos confidenciales y catalogarlos dentro de archivos de metadatos escritos en Amazon S3. Los pasos finales son redactar los documentos y transmitirlos nuevamente al almacenamiento local.

La redacción de imágenes y PDF es compatible con varias herramientas patentadas y de código abierto. Las bibliotecas comunes de Python de código abierto incluyen PyMuPDF o bibliotecas de dibujo de imágenes como PIL. La siguiente figura muestra un ejemplo de redacción de la factura que se mostró anteriormente. Amazon Textract admite la detección de varios campos y también puede crear clasificaciones personalizadas utilizando patrones de expresiones regulares. Combinado con el software de redacción, puede redactar con confianza los campos detectados. Si desea crear un umbral para la intervención humana, Amazon Textract proporciona puntuaciones de confianza que pueden desencadenar flujos de trabajo de validación.

Factura de muestra con campos confidenciales redactados con cuadros negros

Una vez más, Huntington enfrentó el mismo desafío arquitectónico: ¿cómo escalaría esto? AWS Step Functions proporcionó la solución para procesar millones de documentos y al mismo tiempo ofreció enlaces para el manejo de errores y la lógica de reintento. A medida que el proceso de procesamiento de documentos catalogaba objetos que requerían redacción, Huntington ejecutó un flujo simple para ellos:

Flujo de trabajo de AWS Step Functions para el procesamiento de redacción con manejo de errores y lógica de reintento

Para verificar la precisión y la minuciosidad, Huntington verificó dos veces que los campos detectados coincidieran con los patrones esperados antes de la redacción, seguido de una actualización de metadatos para cada archivo. Los archivos redactados se colocaron en una ubicación de Amazon S3 monitoreada por AWS DataSync para su transmisión al almacenamiento de archivos local.

Conclusión

Utilizando AWS, Huntington procesó documentos a un ritmo de aproximadamente 10 millones por día, lo que redujo el tiempo de procesamiento estimado de años a solo unos pocos meses. El costo de procesar todo el depósito de documentos fue aproximadamente el 5% del estimado original. La precisión de la redacción superó el 95 %, cumpliendo con los requisitos de cumplimiento y respaldando los objetivos de seguridad de los datos.

Este proyecto demuestra cómo los servicios de AWS pueden respaldar iniciativas de cumplimiento y procesamiento de datos a gran escala. Huntington planea seguir utilizando este marco para necesidades de redacción de gran volumen, como fusiones y adquisiciones.

Para obtener más información sobre los servicios utilizados en esta solución, visite la página de detalles de Amazon Textract o explore la documentación de AWS Step Functions.

Expresiones de gratitud

Un agradecimiento especial a las siguientes personas y equipos por sus contribuciones: Xuelei Yuan, Robert Carnell, Jeanne Keith, Debbie Montgomery, Bill Gross, Jodi Pettiford, Jon Glazer, Marshall Doss, Bob Wojasinski, Tami Wolf, Marijane Eldridge, Pradeep Kumar Tata, Michael Burkhardt, Nirmal Antony, Trevor Pease, Bryan Griffith, Angus Ferguson (AWS) Randy Patrick (AWS), Stephanie Brenneman (AWS), Art Steele, Kevin Owen.

Sobre los autores

Rob Carnell

Rob Carnell

Rob es el director de análisis y datos empresariales en Huntington, y supervisa equipos multifuncionales en inteligencia artificial, modelado, pruebas y diseño de campañas, conocimientos y digital para impulsar soluciones integradas e impacto comercial.

Timothy Gorman

Timothy Gorman

Timothy es ingeniero jefe de inteligencia artificial en Huntington National Bank y se especializa en automatización y procesamiento de datos no estructurados. Tiene un doctorado en física de la Universidad Estatal de Ohio y ha trabajado en disciplinas que incluyen la física atómica, la ingeniería láser y la automatización impulsada por la inteligencia artificial en las finanzas.

Bobby Lumpkin

Bobby Lumpkin

Bobby es ingeniero de IA/ML en Huntington National Bank y se especializa en inteligencia artificial, aprendizaje automático y métodos estadísticos avanzados en servicios financieros. Tiene una licenciatura en matemáticas y tres maestrías en matemáticas, ciencias matemáticas y estadística aplicada, respectivamente.

Xuelei Yuan

Xuelei Yuan

Xuelei es directora de ciencia de datos en Huntington, donde dirige iniciativas de inteligencia artificial y aprendizaje automático, centrándose en soluciones escalables y listas para producción impulsadas por tecnologías en la nube.

ryan doty

ryan doty

Ryan es gerente de arquitectos de soluciones en Amazon Web Services (AWS), con sede en Nueva York. Ayuda a los clientes de servicios financieros a acelerar la adopción de la nube de AWS proporcionando pautas arquitectónicas para diseñar soluciones innovadoras y escalables. Con experiencia en desarrollo de software e ingeniería de ventas, le entusiasman las posibilidades que la nube puede aportar al mundo.

Angus Ferguson

Angus Ferguson

Angus es arquitecto senior de soluciones en el equipo de la industria de servicios financieros de América del Norte en AWS desde 2022. En su función, Angus ayuda a sus clientes a traducir los objetivos comerciales en una visión técnica, lo que les permite crecer e innovar en la nube. Fuera de AWS, a Angus también le apasiona cultivar las pasiones de los estudiantes a través de grandes eventos, como hackathons, donde puede ser mentor de la próxima generación de ingenieros informáticos de Estados Unidos.

Randy Patricio

Randy Patricio

Randy es gerente técnico senior de cuentas del equipo de la industria de servicios financieros de América del Norte en AWS. Con 21 años de experiencia en TI y un enfoque en ciberseguridad, Randy ayuda a los clientes empresariales a crear arquitecturas seguras y resilientes que cumplan con rigurosos requisitos de cumplimiento y protección de datos.