En el IA generativa En esta era, los agentes que simulan acciones y comportamientos humanos están surgiendo como una poderosa herramienta para que las empresas creen aplicaciones listas para producción. Los agentes pueden interactuar con los usuarios, realizar tareas y exhibir habilidades para tomar decisiones, imitando la inteligencia humana. Combinando agentes con modelos básicos (FM) de la Titán amazónico en lecho de roca amazónica familia, los clientes pueden desarrollar aplicaciones multimodales y complejas que permitan al agente comprender y generar lenguaje natural o imágenes.
Por ejemplo, en la industria minorista de moda, un asistente impulsado por agentes y modelos multimodales puede brindar a los clientes una experiencia personalizada e inmersiva. El asistente puede entablar conversaciones en lenguaje natural y comprender las preferencias e intenciones del cliente. Luego puede utilizar las capacidades multimodales para analizar imágenes de prendas de vestir y hacer recomendaciones basadas en los comentarios del cliente. Además, el agente puede generar ayudas visuales, como sugerencias de vestimenta, mejorando la experiencia general del cliente.
En esta publicación, implementamos un agente asistente de moda usando Agentes de Amazon Bedrock y los modelos de la familia Amazon Titan. El asistente de moda proporciona una experiencia conversacional personalizada y multimodal. Entre otras, las capacidades de Generador de imágenes de Amazon Titan Para pintar y pintar imágenes se puede utilizar para generar inspiraciones de moda y editar fotografías de usuarios. Incorporaciones multimodales de Amazon Titan Los modelos se pueden utilizar para buscar un estilo en una base de datos utilizando un texto emergente o una imagen de referencia proporcionada por el usuario para encontrar estilos similares. Soneto antrópico de Claude 3 Lo utiliza el agente para orquestar sus acciones, por ejemplo, buscar el clima actual para recibir recomendaciones de vestimenta apropiadas para el clima. Una interfaz de usuario web sencilla a través de iluminado proporciona al usuario la mejor experiencia para interactuar con el agente.
El agente asistente de moda se puede integrar sin problemas en plataformas de comercio electrónico o aplicaciones móviles existentes, brindando a los clientes una experiencia agradable y fluida. Los clientes pueden cargar sus propias imágenes, describir el estilo que desean o incluso proporcionar una imagen de referencia, y el agente generará recomendaciones personalizadas e inspiraciones visuales.
El código utilizado en esta solución está disponible en el repositorio de GitHub.
Descripción general de la solución
El agente asistente de moda utiliza el poder de los modelos Amazon Titan y Amazon Bedrock Agents para brindar a los usuarios un conjunto integral de funcionalidades relacionadas con el estilo:
- Búsqueda de imagen a imagen o texto a imagen – Esta herramienta permite a los clientes encontrar productos similares a los estilos que les gustan del catálogo, mejorando su experiencia de usuario. Usamos el modelo Titan Multimodal Embeddings para incrustar cada imagen de producto y almacenarla en Amazon OpenSearch sin servidor para su futura recuperación.
- Generación de texto a imagen – Si el estilo deseado no está disponible en la base de datos, esta herramienta genera imágenes únicas y personalizadas en función de la consulta del usuario, permitiendo la creación de estilos personalizados.
- Conexión API meteorológica – Al obtener información meteorológica para una ubicación determinada mencionada en el mensaje del usuario, el agente puede sugerir estilos apropiados para la ocasión, asegurándose de que el cliente esté vestido según el clima.
- pintar – Los usuarios pueden cargar una imagen y solicitar cambiar el fondo, lo que les permite visualizar sus estilos preferidos en diferentes configuraciones.
- en pintura – Esta herramienta permite a los usuarios modificar prendas de vestir específicas en una imagen cargada, como cambiar el diseño o el color, manteniendo intacto el fondo.
El siguiente diagrama de flujo ilustra el proceso de toma de decisiones:
Y el diagrama de arquitectura correspondiente:
Requisitos previos
Para configurar el agente asistente de moda, asegúrese de tener lo siguiente:
- Una cuenta de AWS activa y Gestión de acceso e identidad de AWS (IAM) en Amazon Bedrock, AWS Lambday Almacenamiento sencillo de Amazon (Amazon S3) acceso
- Instalación de bibliotecas Python requeridas como Streamlit
- Modelos Anthropic Claude 3 Sonnet, Amazon Titan Image Generator y Amazon Titan Multimodal Embeddings habilitados en Amazon Bedrock. Puede confirmar que están habilitados en el Acceso al modelo página de la consola Amazon Bedrock. Si estos modelos están habilitados, el estado de acceso se mostrará como Acceso concedidocomo se muestra en la siguiente captura de pantalla.
Antes de ejecutar el cuaderno proporcionado en el repositorio de GitHub para comenzar a construir la infraestructura, asegúrese de que su cuenta de AWS tenga permiso para:
- Cree roles y políticas de IAM administrados
- Crear e invocar funciones Lambda
- Crear, leer y escribir en depósitos de S3
- Acceda y administre agentes y modelos de Amazon Bedrock
Si desea habilitar las capacidades de búsqueda de imagen a imagen o de texto a imagen, se requieren permisos adicionales para su cuenta de AWS:
- Cree una política de seguridad, una política de acceso, recopile, indexe y mapee el índice en OpenSearch Serverless
- Llame al
BatchGetCollectionen OpenSearch sin servidor
Configurar el agente asistente de moda
Para configurar el agente asistente de moda, siga estos pasos:
- Clonar el repositorio de GitHub usando el comando
- Complete los requisitos previos para otorgar permisos suficientes
- Siga los pasos de implementación descritos en el LÉAME.md
- (Opcional) Si desea utilizar el
image_lookupcaracterística, ejecute fragmentos de código enopensearch_ingest.ipynbutilizar Amazon Titan Multimodal Embeddings para incrustar y almacenar imágenes de muestra - Ejecute la interfaz de usuario de Streamlit para interactuar con el agente usando el comando
Si sigue estos pasos, puede crear un agente asistente de moda potente y atractivo que combine las capacidades de los modelos Amazon Titan con las capacidades de automatización y toma de decisiones de los agentes Amazon Bedrock.
Pon a prueba al asistente de moda.
Una vez configurado el asistente de moda, puedes interactuar con él a través de la interfaz de usuario de Streamlit. Siga estos pasos:
- Navegue a su interfaz de usuario Streamlit, como se muestra en la siguiente captura de pantalla
- Cargue una imagen o ingrese un mensaje de texto que describa el estilo deseado, de acuerdo con la acción deseada, por ejemplo, búsqueda de imágenes, generación de imágenes, pintura exterior o pintura interior. La siguiente captura de pantalla muestra un mensaje de ejemplo.
- Presione Intro para enviar el mensaje al agente. Puede ver el proceso de cadena de pensamiento (CoT) del agente en la interfaz de usuario, como se muestra en la siguiente captura de pantalla.
- Cuando la respuesta esté lista, podrá ver la respuesta del agente en la interfaz de usuario, como se muestra en la siguiente captura de pantalla. La respuesta puede incluir imágenes generadas, recomendaciones de estilo similares o imágenes modificadas según su solicitud. Puede descargar las imágenes generadas directamente desde la interfaz de usuario o verificar la imagen en su depósito S3.
Limpiar
Para evitar costos innecesarios, asegúrese de eliminar los recursos utilizados en esta solución. Puede hacer esto ejecutando el siguiente comando.
Conclusión
El agente asistente de moda, impulsado por los modelos Amazon Titan y Amazon Bedrock Agents, es un ejemplo de cómo los minoristas pueden crear aplicaciones innovadoras que mejoren la experiencia del cliente e impulsen el crecimiento empresarial. Al utilizar esta solución, los minoristas pueden obtener una ventaja competitiva al ofrecer recomendaciones de estilo personalizadas, inspiraciones visuales y consejos de moda interactivos a sus clientes.
Le animamos a explorar el potencial de crear más agentes como este asistente de moda consultando los ejemplos disponibles en Repositorio de GitHub de muestras de AWS.
Acerca de los autores
Akarsha Sehwag es científico de datos e ingeniero de aprendizaje automático en AWS Professional Services con más de 5 años de experiencia en la creación de soluciones basadas en aprendizaje automático. Aprovechando su experiencia en visión por computadora y aprendizaje profundo, capacita a los clientes para aprovechar el poder del aprendizaje automático en la nube de AWS de manera eficiente. Con la llegada de la IA generativa, trabajó con numerosos clientes para identificar buenos casos de uso y convertirlos en soluciones listas para producción.
Yanyan Zhang es científica senior de datos de IA generativa en Amazon Web Services, donde ha estado trabajando en tecnologías de IA/ML de vanguardia como especialista en IA generativa, ayudando a los clientes a aprovechar GenAI para lograr los resultados deseados. Yanyan se graduó de la Universidad Texas A&M con un doctorado. Licenciatura en Ingeniería Eléctrica. Fuera del trabajo, le encanta viajar, hacer ejercicio y explorar cosas nuevas.
Antonia Wiebeler es científica de datos en el Centro de innovación de IA generativa de AWS, donde le gusta crear pruebas de concepto para los clientes. Su pasión es explorar cómo la IA generativa puede resolver problemas del mundo real y crear valor para los clientes. Si bien no codifica, le gusta correr y competir en triatlones.
Alex Newton es científico de datos en el Centro de innovación de IA generativa de AWS y ayuda a los clientes a resolver problemas complejos con IA generativa y aprendizaje automático. Le gusta aplicar soluciones de aprendizaje automático de última generación para resolver desafíos del mundo real. En su tiempo libre encontrarás a Alex tocando en una banda o viendo música en vivo.
Chris Pecora es científico de datos de IA generativa en Amazon Web Services. Le apasiona crear productos y soluciones innovadores y, al mismo tiempo, se centra en la ciencia obsesionada con el cliente. Cuando no realiza experimentos y se mantiene al día con los últimos avances en IA generativa, le encanta pasar tiempo con sus hijos.
Maira Ladeira Tanke es científico senior de datos de IA generativa en AWS. Con experiencia en aprendizaje automático, tiene más de 10 años de experiencia diseñando y creando aplicaciones de IA con clientes de todos los sectores. Como líder técnica, ayuda a los clientes a acelerar la consecución de valor empresarial a través de soluciones de IA generativa en Amazon Bedrock. En su tiempo libre, Maira disfruta viajar, jugar con su gato y pasar tiempo con su familia en un lugar cálido.