Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

La creación de agentes de IA generativa de alto rendimiento requiere una arquitectura que pueda ofrecer inferencias rápidas, coordinar múltiples agentes y operar de manera confiable bajo cargas de trabajo de producción. Si está creando agentes de IA generativa para automatizar revisiones, potenciar asistentes digitales y respaldar flujos de trabajo complejos de toma de decisiones, necesita que estos agentes funcionen bien. Deben reducir el esfuerzo manual, responder casi en tiempo real y escalar a miles de interacciones sin administración de infraestructura adicional. En esta publicación, aprenderá cómo crear estos agentes de alto rendimiento en AWS combinando inferencia acelerada por GPU, orquestación sin servidor, memoria compartida y observabilidad integrada. Estas capacidades son esenciales al pasar de prototipos experimentales a sistemas que ofrecen un valor empresarial constante.

A medida que las cargas de trabajo de los agentes crecen en los entornos de producción, la latencia de inferencia puede aumentar significativamente bajo solicitudes simultáneas, lo que genera respuestas más lentas y una experiencia de usuario degradada. Los entornos de ejecución sin estado a menudo hacen que los agentes pierdan el contexto de conversación o de tareas entre interacciones. Esto da como resultado trabajo repetido o resultados inconsistentes. La visibilidad limitada de la ejecución de los agentes dificulta el diagnóstico de fallas, la comprensión de las rutas de razonamiento o el control de los costos operativos. Estos desafíos se vuelven más pronunciados en los sistemas multiagente, donde varios agentes deben ejecutarse en paralelo, compartir contexto y agregar resultados.

Creará un sistema de revisión de campañas de múltiples agentes que demuestre razonamiento paralelo, persistencia del contexto y rutas de ejecución rastreables utilizando una arquitectura integrada que combina NVIDIA NIM para la inferencia acelerada por GPU. Amazon Bedrock AgentCore proporciona tiempo de ejecución administrado, memoria compartida y observabilidad integrada, y Strands Agents proporciona orquestación de múltiples agentes sin servidor. Este enfoque respalda el rendimiento, la escalabilidad y la información operativa en entornos de producción. Si bien el ejemplo se centra en la revisión de contenido de marketing, el mismo patrón se aplica a los asistentes digitales, la automatización de revisiones y los canales de generación de recuperación aumentada.

Para concretar estos conceptos, las siguientes secciones recorren una arquitectura de referencia y una implementación que demuestra cómo estos componentes funcionan juntos en la práctica.

Descripción general de la solución

Construirás un sistema que consta de tres agentes especializados que operan en paralelo. Un agente revisor de personalidad evalúa el contenido de la campaña desde múltiples perspectivas de audiencia y produce puntuaciones de resonancia. Un agente validador verifica el contenido según las pautas legales y de marca. Un agente finalizador agrega los resultados y produce un conjunto consolidado de recomendaciones. Los documentos se envían a través de una interfaz basada en React, que sondea asincrónicamente los resultados y muestra los comentarios de los agentes a medida que están disponibles.

Nuestra solución utiliza las API NIM de NVIDIA alojadas disponibles a través de build.nvidia.com para ofrecer inferencia acelerada por GPU de alto rendimiento como un servicio totalmente administrado. Estos puntos finales ejecutan modelos de lenguaje grandes optimizados en backends de GPU administrados por NVIDIA. Estos backends utilizan tecnologías como Compute Unified Device Architecture (CUDA) y TensorRT-LLM para proporcionar respuestas de baja latencia y alto rendimiento para los flujos de trabajo de los agentes. Al exponer las API de finalización de chat compatibles con OpenAI, NIM se integra con la capa de orquestación de múltiples agentes basada en Strands sin requerir adaptaciones específicas del modelo.

Implementará la orquestación de agentes utilizando Strands Agents, el marco de múltiples agentes de AWS para coordinar flujos de trabajo de razonamiento basados en herramientas. Con Strands, puede modelar las interacciones de los agentes de forma explícita, lo que facilita la gestión de la ejecución paralela, el flujo de control y la agregación de resultados entre múltiples agentes. Usted empaqueta el orquestador de Strands y los agentes especializados como un contenedor Docker y los implementa en Amazon Bedrock AgentCore Runtime. AgentCore Runtime proporciona un entorno de ejecución administrado con capacidades de recuperación y puntos de control. Estas características ayudan a sus agentes a recuperarse fácilmente de las interrupciones y escalar a miles de invocaciones simultáneas sin administración manual de la infraestructura.

Utilice Amazon Bedrock AgentCore Observability para proporcionar visualizaciones detalladas de cada paso en el flujo de trabajo del agente, lo que permite a los desarrolladores inspeccionar rutas de ejecución, auditar resultados intermedios y depurar cuellos de botella en el rendimiento. Puede monitorear métricas operativas como latencia, uso de tokens y tasas de error a través de Amazon CloudWatch. Esta visibilidad le ayuda a comprender el comportamiento de los agentes e identificar cuellos de botella en el rendimiento en la producción.

También utiliza Amazon Bedrock AgentCore Memory para compartir contexto entre invocaciones de agentes y para brindar soporte para conversaciones de varios turnos. Puede ampliar esta implementación para proporcionar una interfaz de lenguaje natural de asistente de IA porque AgentCore Memory proporciona soporte integrado para almacenar el estado y el historial de la conversación.

Uno de los aspectos principales de esta solución es la facilidad de implementación en Bedrock AgentCore Runtime utilizando una plantilla de AWS Serverless Application Model (AWS SAM). Usted invoca una interfaz de Amazon API Gateway proporcionada por la plantilla que luego empaqueta e implementa sus agentes de Strands y todas sus dependencias, además de habilitar AgentCore Observability y AgentCore Memory.

El siguiente diagrama de arquitectura muestra cómo NVIDIA NIM, Strands Agents y Amazon Bedrock AgentCore trabajan juntos para admitir la inferencia, la orquestación, la memoria y la observabilidad en su implementación.

Requisitos previos

Antes de poder implementar esta solución, deberá configurar su entorno de desarrollo con las siguientes herramientas como requisitos previos.

Instale la interfaz de línea de comandos de AWS (AWS CLI). Instale AWS SAM CLI v1.100.0+ Instale Docker v20.x+. Instale Node.js v18.x+ Instale Python v3.11+

Dependencias

La implementación de Strands Agents también debe tener las siguientes dependencias empaquetadas en DockerFile:

Marco multiagente de AWS Strands: strands-agents Herramientas y utilidades del agente de Strands: strands-agents-tools Biblioteca HTTP para llamadas API: solicitudes Funcionalidad principal del agente de Amazon Bedrock: bedrock-agentcore SDK de AWS para Python: boto3

Implementar la solución

Ahora que comprende la arquitectura, los siguientes pasos lo guiarán en la implementación de la solución en su entorno de AWS. Tenga en cuenta que para utilizar NVIDIA NIM es necesario aceptar el EULA de NVIDIA AI Enterprise (disponible durante la suscripción a AWS Marketplace o el registro en NGC).

Nuestra solución está disponible para descargar en el repositorio de GitHub. Utilice la siguiente guía paso a paso que también se describe exactamente en la sección Implementación del repositorio de GitHub para implementar y acceder a la solución en su entorno de AWS:

Paso 1: clonar el repositorio

git clone cd aws-genai-campaña-revisión-strands-agentcore

Paso 2: configurar las credenciales de AWS

Configurar AWS CLI:

Verificar credenciales:

aws sts obtener-identidad-de-llamada

Paso 3: configurar una tabla de personas de Amazon DynamoDB

Hacer que el script sea ejecutable:

chmod +x scripts/setup_persona_table.sh

Ejecute el script de configuración:

./scripts/setup_persona_table.sh

Paso 4: cree la aplicación AWS SAM

Paso 5: implementar infraestructura

Utilice una implementación guiada y siga las indicaciones para proporcionar el nombre de su pila, el nombre del agente, la región de AWS y acepte los valores predeterminados para otras áreas.

Paso 6: obtener resultados de la implementación

Obtenga puntos finales de API:

aws cloudformation describe-stacks –stack-name –query ‘Pilas[0].Salidas’ –tabla de salidas

Guarde estos valores:

ApiEndpoint: URL de la API HTTP CampaignOrchestratorApi: URL de la API del agente CloudFrontURL: URL del front-end FrontendBucket: depósito S3 para el front-end

Paso 7: implementar el agente en AgentCore Runtime

Esto implementa su agente de Strands en Bedrock AgentCore y escribe el ARN del agente en Systems Manager:

curl -X POST -H “Tipo de contenido: aplicación/json” -d ‘{“action”:”deploy”,”agent_name”:””}’

Esto toma aproximadamente 5 minutos. El tiempo de espera de API Gateway (29 segundos) pero la función AWS Lambda continúa ejecutándose.

Monitorear el progreso:

aws registra la cola /aws/lambda/deploy-agentcore –region –follow

Espere hasta que vea: ¡Agent Core Runtime está LISTO! y escribió el ARN del agente en SSM.

Verificar:

aws ssm get-parameter –nombre /agentcore//agent-arn –region

Paso 8: configurar el entorno front-end

PI_URL=$(aws cloudformation describe-stacks –stack-name –query ‘Pilas[0].Salidas[?OutputKey==`ApiEndpoint`].OutputValue’ –texto de salida) AGENT_API_URL=$(aws cloudformation describe-stacks –stack-name -review –query ‘Pilas[0].Salidas[?OutputKey==`CampaignOrchestratorApi`].OutputValue’ –texto de salida)

Crear archivo .env

gato > .env << EOF VITE_API_URL=$API_URL VITE_AGENT_API_URL=$AGENT_API_URL VITE_AWS_REGION= EOF

Paso 9: construir e implementar la interfaz

Instalar dependencias:

Construir interfaz:

Obtener el nombre del depósito de interfaz:

FRONTEND_BUCKET= $(aws cloudformation describe-stacks –stack-name unified-campaign-review –query ‘Pilas[0].Salidas[?OutputKey==`FrontendBucket`].OutputValue’ –texto de salida)

Implementar en S3:

aws s3 sincronización dist/ s3://$FRONTEND_BUCKET –delete

Invalidar la caché de CloudFront (opcional, para actualizaciones):

DISTRIBUTION_ID=$(aws cloudfront listas-distribuciones –consulta “DistributionList.Items[?Origins.Items[0].DomainName==’${FRONTEND_BUCKET}.s3.us-west-2.amazonaws.com’].Id” –texto de salida) aws cloudfront create-invalidation –distribution-id $DISTRIBUTION_ID –paths “/*”

Paso 10: Accede a la aplicación

Obtener URL de CloudFront:

aws cloudformation describe-stacks –stack-name revisión-de-campaña-unificada –query ‘Stacks[0].Salidas[?OutputKey==`CloudFrontURL`].OutputValue’ –texto de salida

Abra la URL en su navegador para acceder a la aplicación. Utilice este archivo Campaign_brief.md como documento de campaña de muestra y cárguelo en el panel izquierdo. Luego podrá ver el resultado de la revisión de la campaña de la orquestación de múltiples agentes en el panel derecho como se muestra a continuación:

Interfaz de usuario de carga de campaña con un panel izquierdo para cargar un resumen de la campaña y el panel derecho para ver la revisión generada por el agente.

Navegue a la consola Bedrock AgentCore Observability y seleccione su agente para obtener una visualización detallada de cada paso en el flujo de trabajo de su agente como se muestra a continuación:

Panel de observabilidad de Agentcore que describe los intervalos, seguimientos y sesiones para las invocaciones del agente.

Limpiar

Para evitar cargos recurrentes, limpie su cuenta de AWS después de probar la solución.

Elimine la pila de AWS CloudFormation:

sam eliminar –nombre-pila-revisión-campaña-unificada

Elimine la tabla de DynamoDB:

aws dynamodb eliminar-tabla –nombre-tabla PersonaTable –región us-west-2

Conclusión

En esta publicación, aprendió cómo crear un sistema de agente de IA generativo listo para producción combinando NVIDIA NIM para inferencia acelerada por GPU con Amazon Bedrock AgentCore y Strands Agents en AWS para orquestación sin servidor. Al separar la inferencia de la coordinación de agentes, esta arquitectura admite escalamiento independiente, contexto compartido entre las interacciones de los agentes y visibilidad detallada de la ejecución y el rendimiento.

El enfoque de esta publicación proporciona una base práctica para sistemas multiagente que requieren razonamiento paralelo, persistencia del contexto y conocimiento operativo. Ya sea que esté creando automatización de revisión, asistentes digitales u otras aplicaciones impulsadas por agentes, el patrón que se muestra aquí lo ayuda a pasar de prototipos experimentales a sistemas que se pueden implementar, observar y escalar de manera confiable en AWS.

Sobre los autores

Kanishk Mahajan es director de AI/ML en AWS Professional Services. En este puesto, dirige GenAI y transformaciones agentes para algunos de los clientes más importantes de AWS en telecomunicaciones, medios y entretenimiento.

Akshay Parkhi es ingeniero de aprendizaje automático en Amazon Web Services con más de 16 años de experiencia liderando la transformación empresarial en SAP, la nube, DevOps y AI/ML. Diseña y escala sistemas de inteligencia artificial y agentes de grado de producción que impulsan resultados comerciales críticos en entornos complejos del mundo real.

Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

ByEquipo de 7 minutos

Descripción general de la solución

Requisitos previos

Dependencias

Implementar la solución

Paso 1: clonar el repositorio

Paso 2: configurar las credenciales de AWS

Paso 3: configurar una tabla de personas de Amazon DynamoDB

Paso 4: cree la aplicación AWS SAM

Paso 5: implementar infraestructura

Paso 6: obtener resultados de la implementación

Paso 7: implementar el agente en AgentCore Runtime

Paso 8: configurar el entorno front-end

Paso 9: construir e implementar la interfaz

Paso 10: Accede a la aplicación

Limpiar

Conclusión

Sobre los autores

By Equipo de 7 minutos

Related Post

Diseñe una tubería de recuperación y reclasificación de alta precisión con ZeroEntropy Zerank-2 Reranker

Deje de utilizar LLM como solucionadores de problemas gigantes

Cree sistemas multiagente LangGraph sin servidor altamente escalables en AWS con Amazon Bedrock AgentCore

You missed

Corte Suprema favorece a Cármenes – Noticias Gaceta Costa Tropical

¿Coop y Mel volverán a estar juntos? – Vida en Hollywood

Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

Trump dejó escapar la verdad mientras afirmaba que goza de perfecta salud