Cuando su repositorio de documentos contiene cientos de millones de archivos acumulados durante casi una década, ¿cómo puede encontrar y redactar sistemáticamente datos confidenciales de clientes sin tardar años en completarlos? Este era el desafío que enfrentaba The Huntington National Bank (Huntington), uno de los 10 principales bancos de Estados Unidos.
Redacción de información confidencial a escala
Desde 2015, el sistema de gestión de documentos de Huntington ha almacenado de forma segura cientos de millones de documentos en las instalaciones. En 2025, como parte de una iniciativa de cumplimiento proactivo, Huntington se propuso procesar los documentos en este sistema y redactar datos confidenciales. Estos documentos vienen en diferentes formatos, por lo que la solución necesitaba flexibilidad para manejar diversos tipos de archivos y al mismo tiempo ofrecer el rendimiento necesario para procesar millones de documentos rápidamente.
Las estimaciones originales indicaban que este esfuerzo llevaría años. Sin embargo, al diseñar un flujo de trabajo de redacción escalable utilizando Amazon Textract, Amazon SageMaker, AWS Step Functions y AWS Lambda, Huntington redujo este cronograma a meses.
Descripción general de la solución
Antes de examinar la implementación técnica, veamos los requisitos básicos que Huntington estableció para este proyecto. Si se enfrenta a un desafío similar de procesamiento de documentos a gran escala, estos requisitos pueden servirle como punto de partida para el diseño de su propia solución:
Los datos deben cifrarse en reposo y en tránsito. Las ubicaciones donde se almacenan o se accede a los datos deben cumplir estrictos requisitos de acceso. Los servicios utilizados deben estar dentro del alcance del cumplimiento de PCI DSS. Las salidas se deben replicar en los almacenes de datos locales. La precisión de la redacción debe alcanzar o superar el 95 % para cumplir con los requisitos de cumplimiento.
El siguiente diagrama ilustra la arquitectura de la solución de alto nivel.
Mover datos de forma segura y con confianza
El primer objetivo de Huntington fue mover documentos de un recurso compartido de archivos local a un depósito de Amazon Simple Storage Service (Amazon S3). Mover documentos es sencillo, pero este esfuerzo requirió transferir más de 400 millones de documentos, cifrados en tránsito y en reposo. Para lograr esto, Huntington utilizó AWS DataSync, AWS Direct Connect, Amazon S3 y AWS Key Management Service (AWS KMS).
AWS DataSync se puede implementar como agente en su centro de datos local para monitorear una fuente configurada, como un recurso compartido de archivos SMB. Si bien enviar documentos a AWS era fundamental para su procesamiento, AWS DataSync también admite la sincronización de datos en las instalaciones, que era otro requisito clave para este proyecto.
Amazon Textract es un servicio de aprendizaje automático de AWS que extrae texto, tablas y formularios de documentos escaneados. Las instituciones financieras lo utilizan para procesar automáticamente documentos como estados de cuenta o solicitudes de préstamos y luego identificar datos confidenciales como números de Seguro Social, números de cuenta y direcciones personales. La siguiente factura de muestra demuestra esta capacidad.
Amazon Textract detecta varios campos de un documento y proporciona coordenadas de los campos detectados y otros metadatos dentro de una salida JSON.
Huntington utilizó Amazon Textract en un proceso orquestado con AWS Step Functions. Este enfoque redujo el tiempo de revisión manual y al mismo tiempo mejoró la precisión en la detección de información confidencial en grandes volúmenes de documentos.
Rendimiento de detección de escala
Los canales automatizados para el procesamiento de documentos son valiosos, pero el procesamiento de documentos secuencialmente habría extendido el cronograma del proyecto a años. Para alcanzar su objetivo, Huntington necesitaba procesar millones de documentos cada día.
Escalar a este nivel requirió abordar dos consideraciones principales: maximizar los trabajos simultáneos de Amazon Textract dentro de las cuotas de servicio y controlar las tasas de solicitudes para evitar limitaciones.
Los servicios de AWS tienen cuotas que se pueden ajustar mediante límites estrictos y flexibles. La cuota de trabajos por segundo de Amazon Textract se puede aumentar enviando una solicitud a través de la consola de cuotas de servicio de AWS.
Para maximizar el rendimiento frente a la cuota de servicio, Huntington utilizó el estado del mapa integrado de AWS Step Functions, que procesa colecciones de entradas en JSON, CSV u otros formatos. El equipo organizó documentos en Amazon S3 en una colección JSON y ejecutó el estado del mapa en modo distribuido para una mayor simultaneidad. Para realizar un seguimiento del progreso de la canalización, utilizaron resúmenes de ejecución de mapas de AWS Step Functions junto con paneles de control de Amazon CloudWatch para monitorear los tiempos de respuesta, los recuentos de aceleración, los éxitos y las tasas de error.
Para abordar una posible limitación, Huntington supervisó su panel de CloudWatch para verificar los recuentos de solicitudes exitosas y los recuentos limitados de Amazon Textract. Según fue necesario, ajustaron los límites de concurrencia para las ejecuciones de flujos de trabajo secundarios para confirmar que se mantenían por debajo de la cuota de servicio de Amazon Textract y al mismo tiempo mantenían un alto rendimiento. Cuando los trabajos se completaron exitosamente, los campos y metadatos detectados se escribieron en un depósito para su posterior revisión. El siguiente diagrama muestra este enfoque:
El bloque de espera dentro de la función de paso verificó que el proceso estaba listo para continuar con la escritura de metadatos del trabajo y continuar con la siguiente invocación de Amazon Textract. Cuando no hay fallas, la máquina de estados finaliza con un estado aprobado. Cuando se producen fallas, AWS Step Functions escribe en un registro para su revisión y reprocesamiento humanos.
Redactar información confidencial detectada
Hasta este punto, el proceso se centró en detectar datos confidenciales y catalogarlos dentro de archivos de metadatos escritos en Amazon S3. Los pasos finales son redactar los documentos y transmitirlos nuevamente al almacenamiento local.
La redacción de imágenes y PDF es compatible con varias herramientas patentadas y de código abierto. Las bibliotecas comunes de Python de código abierto incluyen PyMuPDF o bibliotecas de dibujo de imágenes como PIL. La siguiente figura muestra un ejemplo de redacción de la factura que se mostró anteriormente. Amazon Textract admite la detección de varios campos y también puede crear clasificaciones personalizadas utilizando patrones de expresiones regulares. Combinado con el software de redacción, puede redactar con confianza los campos detectados. Si desea crear un umbral para la intervención humana, Amazon Textract proporciona puntuaciones de confianza que pueden desencadenar flujos de trabajo de validación.
Una vez más, Huntington enfrentó el mismo desafío arquitectónico: ¿cómo escalaría esto? AWS Step Functions proporcionó la solución para procesar millones de documentos y al mismo tiempo ofreció enlaces para el manejo de errores y la lógica de reintento. A medida que el proceso de procesamiento de documentos catalogaba objetos que requerían redacción, Huntington ejecutó un flujo simple para ellos:
Para verificar la precisión y la minuciosidad, Huntington verificó dos veces que los campos detectados coincidieran con los patrones esperados antes de la redacción, seguido de una actualización de metadatos para cada archivo. Los archivos redactados se colocaron en una ubicación de Amazon S3 monitoreada por AWS DataSync para su transmisión al almacenamiento de archivos local.
Conclusión
Utilizando AWS, Huntington procesó documentos a un ritmo de aproximadamente 10 millones por día, lo que redujo el tiempo de procesamiento estimado de años a solo unos pocos meses. El costo de procesar todo el depósito de documentos fue aproximadamente el 5% del estimado original. La precisión de la redacción superó el 95 %, cumpliendo con los requisitos de cumplimiento y respaldando los objetivos de seguridad de los datos.
Este proyecto demuestra cómo los servicios de AWS pueden respaldar iniciativas de cumplimiento y procesamiento de datos a gran escala. Huntington planea seguir utilizando este marco para necesidades de redacción de gran volumen, como fusiones y adquisiciones.
Para obtener más información sobre los servicios utilizados en esta solución, visite la página de detalles de Amazon Textract o explore la documentación de AWS Step Functions.
Expresiones de gratitud
Un agradecimiento especial a las siguientes personas y equipos por sus contribuciones: Xuelei Yuan, Robert Carnell, Jeanne Keith, Debbie Montgomery, Bill Gross, Jodi Pettiford, Jon Glazer, Marshall Doss, Bob Wojasinski, Tami Wolf, Marijane Eldridge, Pradeep Kumar Tata, Michael Burkhardt, Nirmal Antony, Trevor Pease, Bryan Griffith, Angus Ferguson (AWS) Randy Patrick (AWS), Stephanie Brenneman (AWS), Art Steele, Kevin Owen.