La IA generativa ha creado oportunidades sin precedentes para que las organizaciones canadienses transformen sus operaciones y experiencias de los clientes. Nos complace anunciar que los clientes en Canadá ahora pueden acceder a modelos de base avanzados, incluidos Claude Sonnet 4.5 y Claude Haiku 4.5 de Anthropic en Amazon Bedrock a través de inferencia entre regiones (CRIS).
Esta publicación explora cómo las organizaciones canadienses pueden utilizar perfiles de inferencia entre regiones de la Región de Canadá (Central) para acceder a los últimos modelos básicos para acelerar las iniciativas de IA. Demostraremos cómo comenzar con estas nuevas capacidades, brindaremos orientación para migrar desde modelos anteriores y compartiremos prácticas recomendadas para la administración de cuotas.
Inferencia canadiense entre regiones: su puerta de entrada a la innovación global en IA
Para ayudar a los clientes a alcanzar la escala de sus aplicaciones de IA generativa, Amazon Bedrock ofrece perfiles de inferencia entre regiones (CRIS), una potente característica que permite a las organizaciones distribuir sin problemas el procesamiento de inferencia en múltiples regiones de AWS. Esta capacidad le ayuda a obtener un mayor rendimiento mientras construye a escala, lo que ayuda a garantizar que sus aplicaciones de IA generativa sigan siendo receptivas y confiables incluso bajo cargas pesadas.
Amazon Bedrock proporciona dos tipos de perfiles de inferencia entre regiones:
CRIS geográfico: Amazon Bedrock selecciona automáticamente la región comercial óptima dentro de esa geografía para procesar su solicitud de inferencia. Global CRIS: Global CRIS mejora aún más la inferencia entre regiones al permitir el enrutamiento de solicitudes de inferencia a regiones comerciales admitidas en todo el mundo, optimizando los recursos disponibles y permitiendo un mayor rendimiento del modelo.
La inferencia entre regiones opera a través de la red segura de AWS con cifrado de extremo a extremo tanto para los datos en tránsito como en reposo. Cuando un cliente envía una solicitud de inferencia desde la región de Canadá (central), CRIS enruta inteligentemente la solicitud a una de las regiones de destino configuradas para el perfil de inferencia (perfiles de EE. UU. o globales).
La distinción clave es que, si bien el procesamiento de inferencia (el cálculo transitorio) puede ocurrir en otra Región, todos los datos en reposo (incluidos los registros, las bases de conocimiento y cualquier configuración almacenada) permanecen exclusivamente dentro de la Región (Central) de Canadá. La solicitud de inferencia viaja a través de la red global de AWS, nunca atraviesa la Internet pública, y las respuestas se devuelven cifradas a su aplicación en Canadá.
Configuración de inferencia entre regiones para Canadá
Con CRIS, las organizaciones canadienses obtienen acceso más temprano a modelos básicos, incluidos modelos de vanguardia como Claude Sonnet 4.5 con capacidades de razonamiento mejoradas, lo que brinda un camino más rápido hacia la innovación. CRIS también ofrece capacidad y rendimiento mejorados al brindar acceso a capacidad en múltiples regiones. Esto permite un mayor rendimiento durante los períodos pico, como la temporada de impuestos, el Black Friday y las compras navideñas, el manejo automático de ráfagas sin intervención manual y una mayor resiliencia al atender solicitudes de un conjunto más grande de recursos.
Los clientes canadienses pueden elegir entre dos tipos de perfiles de inferencia según sus requisitos:
Perfil CRIS Región de origen Regiones de destino Descripción Inferencia entre regiones de EE. UU. ca-central-1 Múltiples regiones de EE. UU. Las solicitudes de Canadá (Central) se pueden enrutar a regiones de EE. UU. compatibles con capacidad. Inferencia global ca-central-1 Las solicitudes de regiones globales de AWS desde Canadá (Central) se pueden enrutar a una región en el perfil CRIS global de AWS.
Comenzando con CRIS desde Canadá
Para comenzar a utilizar la inferencia entre regiones desde Canadá, siga estos pasos:
Configurar permisos de AWS Identity and Access Management (IAM)
Primero, verifique que su rol o usuario de IAM tenga los permisos necesarios para invocar modelos de Amazon Bedrock mediante perfiles de inferencia entre regiones.
A continuación se muestra un ejemplo de una política para la inferencia entre regiones de EE. UU.:
Para CRIS global, consulte la publicación del blog Desbloquee la escalabilidad de inferencia de IA global utilizando la nueva inferencia global entre regiones en Amazon Bedrock con Claude Sonnet 4.5 de Anthropic.
Usar perfiles de inferencia entre regiones
Configure su aplicación para utilizar el ID del perfil de inferencia relevante. Los perfiles utilizan prefijos para indicar su alcance de enrutamiento:
Modelo Alcance de enrutamiento ID de perfil de inferencia Claude Sonnet 4.5 Regiones de EE. UU. us.anthropic.claude-sonnet-4-5-20250929-v1:0 Claude Sonnet 4.5 Global global.anthropic.claude-sonnet-4-5-20250929-v1:0 Claude Haiku 4.5 Regiones de EE. UU. us.anthropic.claude-haiku-4-5-20251001-v1:0 Claude Haiku 4.5 Global global.anthropic.claude-haiku-4-5-20251001-v1:0
Código de ejemplo
A continuación se explica cómo utilizar la API de Amazon Bedrock Converse con un perfil de inferencia CRIS de EE. UU. de Canadá:
Gestión de cuotas para cargas de trabajo canadienses
Cuando se utiliza CRIS de Canadá, la gestión de cuotas se realiza a nivel de región de origen (ca-central-1). Esto significa que los aumentos de cuota solicitados para la región de Canadá (central) se aplican a todas las solicitudes de inferencia que se originan en Canadá, independientemente de dónde se procesen.
Comprender los cálculos de cuotas
Importante: Al calcular los aumentos de cuota requeridos, debe tener en cuenta la tasa de consumo, definida como la tasa a la que los tokens de entrada y salida se convierten en uso de cuota de tokens para el sistema de limitación. Los siguientes modelos tienen una tasa de consumo de tokens de salida 5x (1 token de salida consume 5 tokens de sus cuotas):
Claude antrópico Opus 4 Claude antrópico Soneto 4.5 Claude antrópico Soneto 4 Claude antrópico 3.7 Soneto
Para otros modelos, la tasa de consumo es de 1:1 (1 token de salida consume 1 token de su cuota). Para los tokens de entrada, la proporción entre token y cuota es 1:1. El cálculo del número total de tokens por solicitud es el siguiente:
Recuento de tokens de entrada + Tokens de entrada de escritura en caché + (Recuento de tokens de salida x Tasa de consumo)
Solicitar aumentos de cuota
Para solicitar aumentos de cuota para CRIS en Canadá:
Navegue a la consola de Cuotas de servicio de AWS en la región de Canadá (Central) Busque la cuota de modelo específica (por ejemplo, “Claude Sonnet 4,5 tokens por minuto”) Envíe una solicitud de aumento según su uso proyectado.
Migración de modelos Claude anteriores a Claude 4.5
Las organizaciones que actualmente utilizan modelos Claude más antiguos deben planificar su migración a Claude 4.5 para aprovechar las capacidades del modelo más reciente.
Para planificar su estrategia de migración, incorpore los siguientes elementos:
Compare el rendimiento actual: establezca métricas de referencia para sus modelos existentes. Pruebe con cargas de trabajo representativas y optimice las indicaciones: valide el rendimiento de Claude 4.5 con sus casos de uso específicos y ajuste las indicaciones para aprovechar las capacidades mejoradas de Claude 4.5 y utilizar la herramienta de optimización de indicaciones de Bedrock. Implementar una implementación gradual: hacer la transición del tráfico de manera progresiva. Supervisar y ajustar: realice un seguimiento de las métricas de rendimiento y ajuste las cuotas según sea necesario.
Elegir entre perfiles de inferencia estadounidenses y globales
Al implementar CRIS desde Canadá, las organizaciones pueden elegir entre perfiles de inferencia estadounidenses y globales en función de sus requisitos específicos.
La inferencia entre regiones de EE. UU. se recomienda para organizaciones con acuerdos de procesamiento de datos existentes en EE. UU., requisitos de alto rendimiento y resiliencia y entornos de desarrollo y prueba.
Conclusión
La inferencia entre regiones para Amazon Bedrock representa una oportunidad para las organizaciones canadienses que desean utilizar la IA manteniendo la gobernanza de los datos. Al distinguir entre el procesamiento de inferencia transitoria y el almacenamiento de datos persistente, CRIS proporciona un acceso más rápido a los últimos modelos básicos sin comprometer los requisitos de cumplimiento.
Con CRIS, las organizaciones canadienses obtienen acceso a nuevos modelos en cuestión de días en lugar de meses. El sistema se escala automáticamente durante los períodos de mayor actividad comercial y, al mismo tiempo, mantiene registros de auditoría completos dentro de Canadá. Esto le ayuda a cumplir con los requisitos de cumplimiento y utilizar las mismas capacidades avanzadas de IA que las organizaciones de todo el mundo. Para comenzar, revise sus requisitos de gobierno de datos y configure los permisos de IAM. Luego pruebe con el perfil de inferencia que coincida con sus necesidades: EE. UU. para una latencia más baja para las regiones de EE. UU. o Global para una capacidad máxima.
Sobre los autores
Daniel Duplessis es arquitecto principal de soluciones especialistas en IA generativa en Amazon Web Services (AWS), donde guía a las empresas en la elaboración de estrategias integrales de implementación de IA y establece las capacidades fundamentales esenciales para escalar la IA en toda la empresa.
Dan MacKay es el especialista en cumplimiento de servicios financieros de AWS Canadá. Asesora a los clientes sobre prácticas recomendadas y soluciones prácticas para la gobernanza, el riesgo y el cumplimiento relacionados con la nube. Dan se especializa en ayudar a los clientes de AWS a navegar por los servicios financieros y las regulaciones de privacidad aplicables al uso de la tecnología en la nube en Canadá, con un enfoque en la gestión de riesgos de terceros y la resiliencia operativa.
Melanie Li, PhD, es arquitecta sénior de soluciones especializada en IA generativa en AWS con sede en Sydney, Australia, donde se centra en trabajar con los clientes para crear soluciones utilizando herramientas de IA/ML de última generación. Ha participado activamente en múltiples iniciativas de IA generativa en APJ, aprovechando el poder de los LLM. Antes de unirse a AWS, el Dr. Li ocupó puestos de ciencia de datos en las industrias financiera y minorista.
Serge Malikov es un gerente senior de arquitectos de soluciones con sede en Canadá. Su atención se centra en la industria de servicios financieros.
Saurabh Trikande es gerente senior de productos de Amazon Bedrock y Amazon SageMaker Inference. Le apasiona trabajar con clientes y socios, motivado por el objetivo de democratizar la IA. Se centra en los desafíos principales relacionados con la implementación de aplicaciones complejas de IA, la inferencia con modelos multiinquilino, la optimización de costos y hacer más accesible la implementación de modelos generativos de IA. En su tiempo libre, Saurabh disfruta hacer senderismo, aprender sobre tecnologías innovadoras, seguir TechCrunch y pasar tiempo con su familia.
Sharadha Kandasubramanian es gerente sénior de programas técnicos de Amazon Bedrock. Impulsa programas GenAI multifuncionales para Amazon Bedrock, lo que permite a los clientes hacer crecer y escalar sus cargas de trabajo GenAI. Fuera del trabajo, es una ávida corredora y ciclista a la que le encanta pasar tiempo al aire libre bajo el sol.