Automatización del navegador impulsada por agentes de IA para la gestión del flujo de trabajo empresarial

Las organizaciones empresariales dependen cada vez más de aplicaciones basadas en web para procesos comerciales críticos; sin embargo, muchos flujos de trabajo siguen siendo intensivos manualmente, lo que genera ineficiencias operativas y riesgos de cumplimiento. A pesar de las importantes inversiones en tecnología, los trabajadores del conocimiento navegan habitualmente entre ocho y doce aplicaciones web diferentes durante los flujos de trabajo estándar, cambiando constantemente de contexto y transfiriendo información manualmente entre sistemas. Las tareas de entrada y validación de datos consumen aproximadamente entre el 25 % y el 30 % del tiempo de los trabajadores, mientras que los procesos manuales crean cuellos de botella en el cumplimiento y desafíos de coherencia de los datos entre sistemas que requieren una verificación humana continua. Los enfoques de automatización tradicionales tienen limitaciones importantes. Si bien la automatización robótica de procesos (RPA) funciona para procesos estructurados y basados ​​en reglas, se vuelve frágil cuando las aplicaciones se actualizan y requiere un mantenimiento continuo. La integración basada en API sigue siendo óptima, pero muchos sistemas heredados carecen de capacidades modernas. Las plataformas de gestión de procesos de negocio proporcionan orquestación, pero luchan con puntos de decisión complejos y la interacción web directa. Como resultado, la mayoría de las empresas operan con enfoques mixtos en los que solo el 30 % de las tareas del flujo de trabajo están completamente automatizadas, el 50 % requiere supervisión humana y el 20 % siguen siendo completamente manuales.

Estos desafíos se manifiestan en los flujos de trabajo empresariales comunes. Por ejemplo, la validación de órdenes de compra requiere navegación inteligente a través de múltiples sistemas para realizar una comparación triple entre órdenes de compra (PO), recibos y facturas mientras se mantienen registros de auditoría. La incorporación de empleados exige un suministro de acceso coordinado a través de la gestión de identidades, la gestión de relaciones con los clientes (CRM), la planificación de recursos empresariales (ERP) y las plataformas de colaboración con toma de decisiones basada en roles. Finalmente, el procesamiento de pedidos de comercio electrónico debe procesar de manera inteligente los pedidos en múltiples sitios web de minoristas que carecen de acceso API nativo. Los agentes de inteligencia artificial (IA) representan un avance significativo más allá de estas soluciones tradicionales, ya que ofrecen capacidades que pueden navegar inteligentemente por la complejidad, adaptarse a entornos dinámicos y reducir drásticamente la intervención manual en los flujos de trabajo empresariales.

En esta publicación, demostramos cómo una plataforma de gestión de pedidos de comercio electrónico puede automatizar los flujos de trabajo de procesamiento de pedidos en múltiples sitios web minoristas a través de agentes de inteligencia artificial como Amazon Nova Act y el agente Strands utilizando Amazon Bedrock AgentCore Browser a escala.

Flujo de trabajo de automatización de pedidos de comercio electrónico

Este flujo de trabajo demuestra cómo los agentes de IA pueden automatizar de forma inteligente el procesamiento de pedidos complejos y de varios pasos en diversos sitios web de minoristas que carecen de integración API nativa, combinando la navegación adaptable del navegador con la supervisión humana para el manejo de excepciones.

Los siguientes componentes trabajan juntos para permitir un procesamiento de pedidos escalable impulsado por IA:

Las tareas de ECS Fargate ejecutan el backend Python FastAPI en contenedores con el frontend React, lo que proporciona conexiones WebSocket para la automatización de pedidos en tiempo real. Las tareas se escalan automáticamente según la demanda. La aplicación se integra con Amazon Bedrock y Amazon Nova Act para la automatización de pedidos impulsada por IA. AgentCore Browser Tool proporciona un entorno de navegador seguro y aislado para la automatización web. Main Agent organiza Nova Act Agent y Strands + Playwright Agent para un control inteligente del navegador.

El flujo de trabajo de automatización de pedidos de comercio electrónico representa un desafío empresarial común en el que las empresas necesitan procesar pedidos en varios sitios web de minoristas sin acceso API nativo. Este flujo de trabajo demuestra todas las capacidades de la automatización del navegador impulsada por IA, desde la navegación inicial hasta la toma de decisiones complejas y la intervención humana. Tenemos una muestra de automatización de comercio electrónico agente creada que tenemos de código abierto en el repositorio aws-samples en GitHub.

Proceso de flujo de trabajo

Los usuarios del sistema de gestión de pedidos de comercio electrónico envían los pedidos de los clientes a través de una interfaz web o carga CSV por lotes, incluidos los detalles del producto (URL, tamaño, color), información del cliente y dirección de envío. El sistema asigna niveles de prioridad y pone en cola los pedidos para su procesamiento. Cuando se inicia un pedido, Amazon Bedrock AgentCore Browser crea una sesión de navegador aislada con conectividad Chrome DevTools Protocol (CDP). Amazon Bedrock AgentCore Browser proporciona un navegador seguro basado en la nube que permite al agente de IA (agente de Amazon Nova Act y Strands en este caso) interactuar con sitios web. Incluye funciones de seguridad como aislamiento de sesiones, observabilidad integrada a través de visualización en vivo, registro de AWS CloudTrail y capacidades de reproducción de sesiones. El sistema recupera las credenciales del minorista de AWS Secrets Manager y genera una URL de visualización en vivo mediante la transmisión de Amazon DCV para monitoreo en tiempo real. El siguiente diagrama ilustra todo el proceso de flujo de trabajo del pedido.

Automatización del navegador con llenado de formularios y envío de pedidos.

El llenado de formularios representa una capacidad crítica donde el agente detecta y completa de manera inteligente varios tipos de campos en diferentes diseños de pago de minoristas. El agente de IA visita la página del producto, gestiona la autenticación si es necesario y analiza la página para identificar selectores de tamaño, opciones de color y botones del carrito. Selecciona opciones específicas, agrega artículos al carrito y procede al pago, completando la información de envío con detección de campo inteligente en diferentes diseños de minoristas. Si los productos están agotados o no están disponibles, el agente pasa a una revisión humana con contexto sobre las alternativas.

La aplicación de ejemplo emplea dos enfoques distintos según el método de automatización. Amazon Nova Act utiliza la comprensión visual y la estructura DOM de la página web, lo que permite al agente de Nova Act recibir instrucciones en lenguaje natural como “completar la dirección de envío” e identificar automáticamente los campos del formulario a partir de la captura de pantalla, adaptándose a diferentes diseños sin selectores predefinidos. Por el contrario, la combinación Strands + Playwright Model Context Protocol (MCP) utiliza modelos Bedrock para analizar la estructura del Document Object Model (DOM) de la página, determinar los selectores de campos de formulario apropiados y luego Playwright MCP ejecuta las interacciones del navegador de bajo nivel para completar los campos con datos del cliente. Ambos enfoques se adaptan automáticamente a diversas interfaces de pago de minoristas, eliminando la fragilidad de la automatización tradicional basada en selectores.

Humano en el circuito

Cuando encuentra CAPTCHA o desafíos complejos, el agente detiene la automatización y notifica a los operadores a través de WebSocket. Los operadores acceden a la vista en vivo para ver el estado exacto del navegador, resolver el problema manualmente y activar la reanudación. AgentCore Browser permite que el navegador humano tome el control y devuelva el control al agente. El agente continúa desde el estado actual sin reiniciar todo el proceso.

Observabilidad y escala

Durante la ejecución, el sistema captura grabaciones de sesiones almacenadas en S3, capturas de pantalla en pasos críticos y registros de ejecución detallados con marcas de tiempo. Los operadores monitorean el progreso a través de un panel en tiempo real que muestra el estado del pedido, el paso actual y el porcentaje de progreso. Para escenarios de gran volumen, el procesamiento por lotes admite la ejecución paralela de múltiples órdenes con trabajadores configurables (1-10), colas basadas en prioridades y lógica de reintento automático para fallas transitorias.

Conclusión

La automatización del navegador impulsada por agentes de IA representa un cambio fundamental en la forma en que las empresas abordan la gestión del flujo de trabajo. Al combinar la toma de decisiones inteligente, la navegación adaptable y las capacidades de participación humana, las organizaciones pueden ir más allá de la división 30-50-20 de la automatización tradicional hacia tasas de automatización significativamente más altas en flujos de trabajo complejos y multisistema. El ejemplo de automatización de pedidos de comercio electrónico demuestra que los agentes de IA no reemplazan a la RPA tradicional: permiten la automatización de flujos de trabajo que antes se consideraban demasiado dinámicos o complejos para la automatización, manejan diversas interfaces de usuario, toman decisiones contextuales y mantienen el cumplimiento y la auditabilidad totales.

A medida que las empresas enfrentan una presión cada vez mayor para mejorar la eficiencia operativa mientras administran sistemas heredados e integraciones complejas, los agentes de IA ofrecen un camino práctico a seguir. En lugar de invertir en costosas revisiones del sistema o aceptar las ineficiencias de los procesos manuales, las organizaciones pueden implementar una automatización inteligente del navegador que se adapte a su panorama tecnológico existente. El resultado es una reducción de los costos operativos, tiempos de procesamiento más rápidos, un mejor cumplimiento y, lo más importante, la liberación de los trabajadores del conocimiento de tareas repetitivas de entrada de datos y navegación del sistema, lo que les permite centrarse en actividades de mayor valor que impulsan el impacto empresarial.

Sobre los autores

Kosti Vasilakakis es PM principal en AWS en el equipo de Agentic AI, donde ha dirigido el diseño y desarrollo de varios servicios Bedrock AgentCore desde cero, incluidos Runtime, Browser, Code Interpreter e Identity. Anteriormente trabajó en Amazon SageMaker desde sus inicios, lanzando capacidades de IA/ML que ahora utilizan miles de empresas en todo el mundo. Al principio de su carrera, Kosti fue científico de datos. Fuera del trabajo, crea automatizaciones de productividad personal, juega tenis y disfruta de la vida con su esposa e hijos.

Veda Raman es arquitecto senior de soluciones para IA generativa para Amazon Nova y Agentic AI en AWS. Ayuda a los clientes a diseñar y crear soluciones de IA Agentic utilizando modelos de Amazon Nova y Bedrock AgentCore. Anteriormente trabajó con clientes creando soluciones de aprendizaje automático utilizando Amazon SageMaker y también como arquitecta de soluciones sin servidor en AWS.

Sanghwa Na es arquitecto de soluciones especialista en IA generativa en Amazon Web Services. Con sede en San Francisco, trabaja con clientes para diseñar y crear soluciones de IA generativa utilizando grandes modelos de lenguaje y modelos básicos en AWS. Se centra en ayudar a las organizaciones a adoptar tecnologías de inteligencia artificial que impulsen un valor empresarial real.