La creación de agentes de IA generativa de alto rendimiento requiere una arquitectura que pueda ofrecer inferencias rápidas, coordinar múltiples agentes y operar de manera confiable bajo cargas de trabajo de producción. Si está creando agentes de IA generativa para automatizar revisiones, potenciar asistentes digitales y respaldar flujos de trabajo complejos de toma de decisiones, necesita que estos agentes funcionen bien. Deben reducir el esfuerzo manual, responder casi en tiempo real y escalar a miles de interacciones sin administración de infraestructura adicional. En esta publicación, aprenderá cómo crear estos agentes de alto rendimiento en AWS combinando inferencia acelerada por GPU, orquestación sin servidor, memoria compartida y observabilidad integrada. Estas capacidades son esenciales al pasar de prototipos experimentales a sistemas que ofrecen un valor empresarial constante.
A medida que las cargas de trabajo de los agentes crecen en los entornos de producción, la latencia de inferencia puede aumentar significativamente bajo solicitudes simultáneas, lo que genera respuestas más lentas y una experiencia de usuario degradada. Los entornos de ejecución sin estado a menudo hacen que los agentes pierdan el contexto de conversación o de tareas entre interacciones. Esto da como resultado trabajo repetido o resultados inconsistentes. La visibilidad limitada de la ejecución de los agentes dificulta el diagnóstico de fallas, la comprensión de las rutas de razonamiento o el control de los costos operativos. Estos desafíos se vuelven más pronunciados en los sistemas multiagente, donde varios agentes deben ejecutarse en paralelo, compartir contexto y agregar resultados.
Creará un sistema de revisión de campañas de múltiples agentes que demuestre razonamiento paralelo, persistencia del contexto y rutas de ejecución rastreables utilizando una arquitectura integrada que combina NVIDIA NIM para la inferencia acelerada por GPU. Amazon Bedrock AgentCore proporciona tiempo de ejecución administrado, memoria compartida y observabilidad integrada, y Strands Agents proporciona orquestación de múltiples agentes sin servidor. Este enfoque respalda el rendimiento, la escalabilidad y la información operativa en entornos de producción. Si bien el ejemplo se centra en la revisión de contenido de marketing, el mismo patrón se aplica a los asistentes digitales, la automatización de revisiones y los canales de generación de recuperación aumentada.
Para concretar estos conceptos, las siguientes secciones recorren una arquitectura de referencia y una implementación que demuestra cómo estos componentes funcionan juntos en la práctica.
Descripción general de la solución
Construirás un sistema que consta de tres agentes especializados que operan en paralelo. Un agente revisor de personalidad evalúa el contenido de la campaña desde múltiples perspectivas de audiencia y produce puntuaciones de resonancia. Un agente validador verifica el contenido según las pautas legales y de marca. Un agente finalizador agrega los resultados y produce un conjunto consolidado de recomendaciones. Los documentos se envían a través de una interfaz basada en React, que sondea asincrónicamente los resultados y muestra los comentarios de los agentes a medida que están disponibles.
Nuestra solución utiliza las API NIM de NVIDIA alojadas disponibles a través de build.nvidia.com para ofrecer inferencia acelerada por GPU de alto rendimiento como un servicio totalmente administrado. Estos puntos finales ejecutan modelos de lenguaje grandes optimizados en backends de GPU administrados por NVIDIA. Estos backends utilizan tecnologías como Compute Unified Device Architecture (CUDA) y TensorRT-LLM para proporcionar respuestas de baja latencia y alto rendimiento para los flujos de trabajo de los agentes. Al exponer las API de finalización de chat compatibles con OpenAI, NIM se integra con la capa de orquestación de múltiples agentes basada en Strands sin requerir adaptaciones específicas del modelo.
Implementará la orquestación de agentes utilizando Strands Agents, el marco de múltiples agentes de AWS para coordinar flujos de trabajo de razonamiento basados en herramientas. Con Strands, puede modelar las interacciones de los agentes de forma explícita, lo que facilita la gestión de la ejecución paralela, el flujo de control y la agregación de resultados entre múltiples agentes. Usted empaqueta el orquestador de Strands y los agentes especializados como un contenedor Docker y los implementa en Amazon Bedrock AgentCore Runtime. AgentCore Runtime proporciona un entorno de ejecución administrado con capacidades de recuperación y puntos de control. Estas características ayudan a sus agentes a recuperarse fácilmente de las interrupciones y escalar a miles de invocaciones simultáneas sin administración manual de la infraestructura.
Utilice Amazon Bedrock AgentCore Observability para proporcionar visualizaciones detalladas de cada paso en el flujo de trabajo del agente, lo que permite a los desarrolladores inspeccionar rutas de ejecución, auditar resultados intermedios y depurar cuellos de botella en el rendimiento. Puede monitorear métricas operativas como latencia, uso de tokens y tasas de error a través de Amazon CloudWatch. Esta visibilidad le ayuda a comprender el comportamiento de los agentes e identificar cuellos de botella en el rendimiento en la producción.
También utiliza Amazon Bedrock AgentCore Memory para compartir contexto entre invocaciones de agentes y para brindar soporte para conversaciones de varios turnos. Puede ampliar esta implementación para proporcionar una interfaz de lenguaje natural de asistente de IA porque AgentCore Memory proporciona soporte integrado para almacenar el estado y el historial de la conversación.
Uno de los aspectos principales de esta solución es la facilidad de implementación en Bedrock AgentCore Runtime utilizando una plantilla de AWS Serverless Application Model (AWS SAM). Usted invoca una interfaz de Amazon API Gateway proporcionada por la plantilla que luego empaqueta e implementa sus agentes de Strands y todas sus dependencias, además de habilitar AgentCore Observability y AgentCore Memory.
El siguiente diagrama de arquitectura muestra cómo NVIDIA NIM, Strands Agents y Amazon Bedrock AgentCore trabajan juntos para admitir la inferencia, la orquestación, la memoria y la observabilidad en su implementación.
Requisitos previos
Antes de poder implementar esta solución, deberá configurar su entorno de desarrollo con las siguientes herramientas como requisitos previos.
Instale la interfaz de línea de comandos de AWS (AWS CLI). Instale AWS SAM CLI v1.100.0+ Instale Docker v20.x+. Instale Node.js v18.x+ Instale Python v3.11+
Dependencias
La implementación de Strands Agents también debe tener las siguientes dependencias empaquetadas en DockerFile:
Marco multiagente de AWS Strands: strands-agents Herramientas y utilidades del agente de Strands: strands-agents-tools Biblioteca HTTP para llamadas API: solicitudes Funcionalidad principal del agente de Amazon Bedrock: bedrock-agentcore SDK de AWS para Python: boto3
Implementar la solución
Ahora que comprende la arquitectura, los siguientes pasos lo guiarán en la implementación de la solución en su entorno de AWS. Tenga en cuenta que para utilizar NVIDIA NIM es necesario aceptar el EULA de NVIDIA AI Enterprise (disponible durante la suscripción a AWS Marketplace o el registro en NGC).
Nuestra solución está disponible para descargar en el repositorio de GitHub. Utilice la siguiente guía paso a paso que también se describe exactamente en la sección Implementación del repositorio de GitHub para implementar y acceder a la solución en su entorno de AWS:
Paso 1: clonar el repositorio
Paso 2: configurar las credenciales de AWS
Configurar AWS CLI:
Verificar credenciales:
Paso 3: configurar una tabla de personas de Amazon DynamoDB
Hacer que el script sea ejecutable:
Ejecute el script de configuración:
Paso 4: cree la aplicación AWS SAM
Paso 5: implementar infraestructura
Utilice una implementación guiada y siga las indicaciones para proporcionar el nombre de su pila, el nombre del agente, la región de AWS y acepte los valores predeterminados para otras áreas.
Paso 6: obtener resultados de la implementación
Obtenga puntos finales de API:
Guarde estos valores:
ApiEndpoint: URL de la API HTTP CampaignOrchestratorApi: URL de la API del agente CloudFrontURL: URL del front-end FrontendBucket: depósito S3 para el front-end
Paso 7: implementar el agente en AgentCore Runtime
Esto implementa su agente de Strands en Bedrock AgentCore y escribe el ARN del agente en Systems Manager:
Esto toma aproximadamente 5 minutos. El tiempo de espera de API Gateway (29 segundos) pero la función AWS Lambda continúa ejecutándose.
Monitorear el progreso:
Espere hasta que vea: ¡Agent Core Runtime está LISTO! y escribió el ARN del agente en SSM.
Verificar:
Paso 8: configurar el entorno front-end
Crear archivo .env
Paso 9: construir e implementar la interfaz
Instalar dependencias:
Construir interfaz:
Obtener el nombre del depósito de interfaz:
Implementar en S3:
Invalidar la caché de CloudFront (opcional, para actualizaciones):
Paso 10: Accede a la aplicación
Obtener URL de CloudFront:
Abra la URL en su navegador para acceder a la aplicación. Utilice este archivo Campaign_brief.md como documento de campaña de muestra y cárguelo en el panel izquierdo. Luego podrá ver el resultado de la revisión de la campaña de la orquestación de múltiples agentes en el panel derecho como se muestra a continuación:
Navegue a la consola Bedrock AgentCore Observability y seleccione su agente para obtener una visualización detallada de cada paso en el flujo de trabajo de su agente como se muestra a continuación:
Limpiar
Para evitar cargos recurrentes, limpie su cuenta de AWS después de probar la solución.
Elimine la pila de AWS CloudFormation:
Elimine la tabla de DynamoDB:
Conclusión
En esta publicación, aprendió cómo crear un sistema de agente de IA generativo listo para producción combinando NVIDIA NIM para inferencia acelerada por GPU con Amazon Bedrock AgentCore y Strands Agents en AWS para orquestación sin servidor. Al separar la inferencia de la coordinación de agentes, esta arquitectura admite escalamiento independiente, contexto compartido entre las interacciones de los agentes y visibilidad detallada de la ejecución y el rendimiento.
El enfoque de esta publicación proporciona una base práctica para sistemas multiagente que requieren razonamiento paralelo, persistencia del contexto y conocimiento operativo. Ya sea que esté creando automatización de revisión, asistentes digitales u otras aplicaciones impulsadas por agentes, el patrón que se muestra aquí lo ayuda a pasar de prototipos experimentales a sistemas que se pueden implementar, observar y escalar de manera confiable en AWS.
Sobre los autores
Kanishk Mahajan es director de AI/ML en AWS Professional Services. En este puesto, dirige GenAI y transformaciones agentes para algunos de los clientes más importantes de AWS en telecomunicaciones, medios y entretenimiento.
Akshay Parkhi es ingeniero de aprendizaje automático en Amazon Web Services con más de 16 años de experiencia liderando la transformación empresarial en SAP, la nube, DevOps y AI/ML. Diseña y escala sistemas de inteligencia artificial y agentes de grado de producción que impulsan resultados comerciales críticos en entornos complejos del mundo real.