Presentamos la optimización de la calidad del agente en AgentCore, ahora en versión preliminar

Genere recomendaciones a partir de seguimientos de producción, valídelas con evaluación de lotes y pruebas A/B, y realice envíos con confianza.

Los agentes de IA que funcionan bien en el lanzamiento no permanecen así. A medida que los modelos evolucionan, el comportamiento del usuario cambia y las indicaciones se reutilizan en nuevos contextos para los que nunca fueron diseñadas. La calidad del agente se degrada silenciosamente. En la mayoría de los equipos, el proceso de mejora sigue siendo el mismo: sin ciclos de retroalimentación automática, cuando un usuario se queja, un desarrollador lee los rastros, formula una hipótesis, reescribe el mensaje, prueba un puñado de casos y envía la solución. Luego, el ciclo se repite y a menudo presenta un nuevo problema para un usuario diferente. Hasta hoy, Amazon Bedrock AgentCore proporcionó las piezas para que usted pueda depurarlo manualmente o crear implementaciones personalizadas: verifique las puntuaciones de evaluación para detectar una caída en la calidad, profundice en los rastros para determinar la causa raíz y actualice el agente con una configuración mejorada. El desarrollador es el motor de rendimiento que se basa en la intuición y no en evidencia sistemática respaldada por datos. Los equipos científicos dedicados y los grandes puntos de referencia centralizados ayudan, pero no son una solución práctica ni oportuna para la mayoría de los equipos de productos. Incluso cuando se tiene esa maquinaria, tiende a moverse en ciclos semanales o mensuales, mientras que los agentes varían en la producción todos los días.

AgentCore es la plataforma para crear, conectar y optimizar agentes a escala, con seguridad aplicada en la capa de infraestructura. Miles de desarrolladores ya utilizan AgentCore para crear agentes que razonan, planifican y actúan en flujos de trabajo complejos. Hoy anunciamos nuevas capacidades en AgentCore que completan el ciclo de observación, evaluación y mejora del rendimiento y la calidad de los agentes: recomendaciones y dos formas de validarlas.

Las recomendaciones analizan los seguimientos de producción y los resultados de la evaluación para optimizar los mensajes del sistema o las descripciones de herramientas para el evaluador que especifique. La evaluación por lotes ayuda a probar la recomendación frente a un conjunto de datos de prueba predefinido e informa puntuaciones agregadas, detectando regresiones en casos que usted sabe que son importantes. Cuando los escenarios creados manualmente no son suficientes, también puede simular un conjunto de datos utilizando un actor respaldado por LLM para que desempeñe el papel de un usuario final. Las pruebas A/B ejecutan una comparación controlada entre versiones de un agente a través de AgentCore Gateway, dividiendo el tráfico de producción en vivo en el porcentaje que usted configure e informando los resultados con intervalos de confianza y significancia estadística. Las recomendaciones proponen cambios, la evaluación por lotes y las pruebas A/B los validan y, en conjunto, reemplazan el ciclo manual de lectura de seguimientos, adivinación de correcciones e implementación ciega.

“Evaluar y mejorar continuamente a los agentes es esencial para impulsar la creación de valor basada en datos. Los procesos que tradicionalmente requerían semanas de ajuste manual han evolucionado hacia ciclos rápidos y repetibles mediante el uso de AgentCore. Al derivar recomendaciones de mejora a partir de datos de seguimiento de producción y validar su impacto a través de pruebas A/B, las organizaciones pueden optimizar el rendimiento al tiempo que garantizan precisión y eficacia. Este enfoque permite una mejora continua y altamente eficiente a escala”. Yoshiharu Okuda, Jefe del Departamento de Estrategia Empresarial de IA Generativa, NTT DATA

Cómo funciona el bucle en la práctica

Así es como se ejecuta el bucle para el escenario de actualización del modelo. El patrón es el mismo para cualquier cambio: una refactorización rápida, una actualización del conjunto de herramientas, una actualización del marco.

La trazabilidad de un extremo a otro en AgentCore captura cada llamada de modelo, invocación de herramienta y paso de razonamiento como seguimientos compatibles con OpenTelemetry administrados mediante AgentCore Observability. Las evaluaciones califican esos rastros automáticamente en dimensiones como la tasa de éxito de objetivos, la precisión de la selección de herramientas, la utilidad y la seguridad, utilizando evaluadores integrados, comparaciones reales o puntuación personalizada de LLM como juez.

Generar una recomendación. Apunte la API de Recommendations al grupo de CloudWatch Log donde su agente escribe seguimientos. Elija la señal de recompensa como el evaluador para el que desea optimizar, ya sea un evaluador integrado de AgentCore o un evaluador personalizado que haya creado, y elija qué optimizar: el mensaje del sistema o las descripciones de las herramientas. AgentCore reflexiona sobre los rastros, considera la señal de recompensa proporcionada y genera una recomendación destinada a mejorar el rendimiento de esa señal de recompensa. Para las recomendaciones de descripción de herramientas, solo afina la descripción de la herramienta sin tocar la implementación de la herramienta. El servicio propone y usted decide qué seguir en los pasos de validación.

Empaquete el cambio como un paquete de configuración. Las configuraciones se envían como paquetes, que son instantáneas versionadas e inmutables de la configuración de su agente codificadas por ARN en tiempo de ejecución: ID del modelo, indicador del sistema, descripciones de herramientas. Su agente lee su configuración activa dinámicamente en tiempo de ejecución a través del SDK de AgentCore, por lo que intercambiar un mensaje o un modelo es un cambio de configuración, no un cambio de código. Cree un paquete para su configuración actual y otro para la recomendación. Los paquetes son opcionales. Para los cambios que incluyen código, implemente en un punto final de tiempo de ejecución independiente.

Validar fuera de línea: evaluación por lotes. Ejecute su agente con un conjunto de datos seleccionados utilizando el nuevo paquete, luego evalúe las sesiones resultantes en lotes y compare las puntuaciones agregadas con su línea de base. Esto captura regresiones en casos de uso que ya ha definido. Los equipos suelen conectar la evaluación por lotes a sus canales de CI/CD para que ningún cambio de configuración llegue a producción sin pasar por sus casos conocidos.

Validar contra tráfico en vivo: pruebas A/B. Configure AgentCore Gateway para dividir el tráfico de producción en vivo entre dos variantes, con la versión actual como control y la candidata como tratamiento. Las variantes pueden ser diferentes versiones de paquetes en el mismo tiempo de ejecución para cambios solo de configuración, o diferentes destinos de puerta de enlace que apunten a puntos finales de tiempo de ejecución separados para cambios que incluyen código. La evaluación en línea califica cada sesión con los evaluadores especificados. Los resultados de la prueba A/B incluyen intervalos de confianza y valores p. Cuando tenga datos adecuados que le den confianza en el rendimiento de la nueva versión, detenga la prueba y promueva la nueva variante configurándola como predeterminada. Para revertir, pausa la prueba y el agente vuelve a su configuración existente.

“Lo que tomó semanas de iteración manual es ahora un ciclo repetible con AgentCore: generar una recomendación a partir de seguimientos de producción, validarla contra el tráfico en vivo con significación estadística e implementar la configuración ganadora. Cada ciclo produce los datos de referencia para el siguiente: el proceso de mejora se compone”. — Masashi Shimizu, director general senior, Nomura Research Institute, Ltd.

hacia donde nos dirigimos

La vista previa de hoy está impulsada por el desarrollador por diseño. Usted elige cuándo generar una recomendación, a qué evaluador dirigirse y si promocionar el resultado. Nuestra visión es un volante donde los rastros alimentan las evaluaciones, las evaluaciones emergen a la deriva, las recomendaciones convierten esa señal en un cambio concreto y las pruebas A/B demuestran que funciona. La configuración ganadora se convierte en la nueva línea de base y las huellas que produce son la entrada para el siguiente ciclo. Con el tiempo, el volante gira con menos esfuerzo. Las recomendaciones sopesan a varios evaluadores en conjunto, lo que hace surgir compensaciones con evidencia. También amplían la superficie de optimización a las habilidades, proponiendo otras nuevas o refinando las existentes en función del uso de producción. El análisis de seguimiento agrupa los fallos de producción en patrones que puede abordar antes de que se multipliquen. Las alarmas de monitor lanzan una recomendación y validación por sí solas cuando un evaluador cae por debajo de un umbral, lo que lleva el resultado a una cola de revisión. Tú decides qué barcos y el sistema puede hacer el trabajo pesado para llegar allí.

Véalo en acción

El ejemplo de Market Trends Agent en GitHub es un agente de inteligencia de mercado creado para corredores de inversión que cubre datos bursátiles en tiempo real, análisis sectoriales, búsqueda de noticias y perfiles de corredores personalizados. Para un agente que atiende a corredores con diferentes perfiles de riesgo, intereses sectoriales y estilos de conversación, la degradación de la calidad es difícil de detectar y de solucionar sin las herramientas adecuadas.

Recorra el circuito de mejora completo: genere una recomendación que surja cuando el agente no logra personalizar el asesoramiento según la estrategia declarada de un corredor o selecciona la herramienta incorrecta cuando una consulta abarca múltiples sectores. Empaquete el cambio como una versión del paquete de configuración. Valide la solución con una evaluación por lotes en un conjunto seleccionado de conversaciones con intermediarios. Luego, pruebe A/B la configuración con sesiones de intermediarios reales con confianza estadística antes de promoverla a producción.

empezar

Estas capacidades están disponibles en versión preliminar hoy a través de Amazon Bedrock AgentCore en las regiones de AWS donde AgentCore Assessments está disponible. Durante la vista previa, AgentCore Optimization se dirige a las indicaciones del sistema y a las descripciones de herramientas para los agentes implementados en AgentCore Runtime y que utilizan AgentCore Observability and Evaluaciones.

Comience a través de AgentCore Console o CLI. Lea la documentación y siga los tutoriales paso a paso aquí.

Sobre los autores

Amandeep Khurana

Amandeep Khurana es gerente principal de productos y trabaja en Amazon Bedrock AgentCore, enfocándose en operaciones de agentes y herramientas de rendimiento. Le apasiona crear productos con tecnología de punta y ayudar a los clientes a adoptarlos para resolver sus problemas comerciales.

Nikhil Kandoi

Nikhil Kandoi es ingeniero principal del equipo de AgentCore. Nikhil aporta una profunda experiencia en la creación y ampliación de sistemas inteligentes que abarcan múltiples servicios de IA como AWS Lex, Panorama y Amazon Q. Hoy en día, se centra en los desafíos de implementar y gestionar agentes de IA a escala empresarial que hacen que las implementaciones de agentes a gran escala sean confiables y seguras.

Bharathi Srinivasan

Bharathi Srinivasan es científico senior de datos de IA generativa en AWS. Bharathi trabaja con clientes empresariales en desafíos de IA generativa a gran escala, incluida la solidez y verificación de sistemas no deterministas, la gobernanza de GenAI y plataformas de IA agente, y la calidad de los sistemas dinámicos de IA agente.

Presentamos la optimización de la calidad del agente en AgentCore, ahora en versión preliminar

ByEquipo de 7 minutos

Sobre los autores

Amandeep Khurana

Nikhil Kandoi

Bharathi Srinivasan

By Equipo de 7 minutos

Related Post

La decodificación especulativa de DFlash elabora bloques de tokens completos en paralelo para lograr un rendimiento hasta 15 veces mayor en NVIDIA Blackwell

MIT en los medios: Explorando cómo la ciencia impulsada por la curiosidad es un ingrediente esencial en el éxito de Estados Unidos | Noticias del MIT

DeepReinforce lanza Ornith-1.0: una familia de modelos de codificación de código abierto que aprende sus propios andamios de RL

You missed

Los humanos y los simios se han reído de la misma manera durante millones de años, sugiere un estudio: ScienceAlert

El presidente caótico – El Atlántico

La huelga de trenes en toda España provocará interrupciones a pesar de que los servicios funcionan « Euro Weekly News

La decodificación especulativa de DFlash elabora bloques de tokens completos en paralelo para lograr un rendimiento hasta 15 veces mayor en NVIDIA Blackwell