Cómo Mixbook utilizó la IA generativa para ofrecer experiencias de libros de fotos personalizados

Esta publicación está coescrita con Vlad Lebedev y DJ Charles de Mixbook.

Libro de mezclas es una plataforma de diseño galardonada que ofrece a los usuarios una libertad creativa sin igual para diseñar y compartir historias únicas, transformando las vidas de más de seis millones de personas. En la actualidad, Mixbook es el servicio de libros de fotos número uno en los EE. UU. con 26 mil reseñas de cinco estrellas.

Libro de mezclas Mixbook permite a los usuarios compartir sus historias con creatividad y confianza. Su misión es ayudar a los usuarios a celebrar los momentos más bellos de sus vidas. Mixbook tiene como objetivo fomentar las conexiones profundas entre los usuarios y sus seres queridos mediante el intercambio de sus historias en medios físicos y digitales.

Hace años que, Libro de mezclas emprendieron una iniciativa estratégica para trasladar sus cargas de trabajo operativas a Servicios web de Amazon (AWS)una decisión que ha producido importantes ventajas en todo momento. Esta decisión fundamental ha sido fundamental para impulsarlos a cumplir su misión, asegurando que las operaciones de su sistema se caractericen por su confiabilidad, rendimiento superior y eficiencia operativa.

En este post te mostramos cómo se utilizó Mixbook inteligencia artificial generativa (IA) capacidades en AWS para personalizar sus experiencias de libros de fotografías: un paso hacia su misión.

Desafío de negocio

En el mundo digital actual, tenemos muchas fotografías que tomamos y compartimos con nuestros amigos y familiares. Imaginemos un escenario en el que tenemos cientos de fotografías de unas vacaciones familiares recientes y queremos crear un álbum de fotos para la mesa de centro que sea memorable. Sin embargo, elegir las mejores fotografías de todas y describirlas con subtítulos puede requerir mucho tiempo y esfuerzo. Como todos sabemos, una imagen vale más que mil palabras, por lo que intentar resumir un momento con un subtítulo de solo seis a diez palabras puede ser todo un desafío. Mixbook realmente entiende el problema y está aquí para solucionarlo.

Solución

Mixbook Smart Captions es la solución mágica al enigma de los subtítulos. No solo interpreta las fotos de los usuarios, sino que también añade un toque de creatividad para que las historias destaquen.

Lo más importante es que Smart Captions no automatiza por completo el proceso creativo. En cambio, ofrece un socio creativo que permite que la propia narración del usuario infunda un toque personal al libro. Ya sea un selfie o una foto panorámica, el objetivo es asegurarse de que las fotos de los usuarios digan mucho, sin esfuerzo.

Descripción general de la arquitectura

La implementación del sistema involucra tres componentes principales:

  • Adquisición de datos
  • Inferencia de información
  • Síntesis creativa

La generación de subtítulos depende en gran medida del proceso de inferencia, ya que la calidad y la significatividad del resultado del proceso de comprensión influyen directamente en la especificidad y la personalización de la generación de subtítulos. A continuación, se muestra el diagrama de flujo de datos del proceso de generación de subtítulos, que se describe en el texto que sigue.

Adquisición de datos

Un usuario carga fotos en Mixbook. Las fotos sin procesar se almacenan en Servicio de almacenamiento simple de Amazon (Amazon S3).

El proceso de ingesta de datos implica tres componentes macro: Edición compatible con Amazon Aurora MySQLAmazon S3 y AWS Fargate para Amazon ECSAurora MySQL funciona como la principal solución de almacenamiento de datos relacionales para el seguimiento y registro de sesiones de carga de archivos multimedia y sus metadatos correspondientes. Ofrece opciones de capacidad flexibles, que van desde la ausencia de servidor en un extremo hasta instancias aprovisionadas reservadas para un uso predecible a largo plazo en el otro. S3, a su vez, proporciona almacenamiento eficiente, escalable y seguro para los propios objetos de archivos multimedia. Sus clases de almacenamiento permiten el mantenimiento de cargas recientes en un estado activo para un acceso de baja latencia, mientras que los objetos más antiguos se pueden trasladar a Amazon S3. glaciar niveles, minimizando así los gastos de almacenamiento a lo largo del tiempo. Registro de contenedores elásticos de Amazon (Amazon ECS)cuando se utiliza junto con el entorno informático de bajo mantenimiento de AWS Fargateforma un orquestador conveniente para cargas de trabajo en contenedores, reuniendo todos los componentes sin problemas.

Inferencia

La fase de comprensión extrae elementos contextuales y semánticos esenciales de la entrada, incluidas descripciones de imágenes, datos temporales y espaciales, reconocimiento facial, sentimientos emocionales y etiquetas. Entre estos, las descripciones de imágenes generadas por un modelo de visión artificial ofrecen la comprensión más fundamental de los momentos capturados. Reconocimiento de Amazon proporciona una detección precisa de los cuadros delimitadores de los rostros y las expresiones emocionales. La detección de rostros es crucial para la colocación y el recorte automáticos óptimos de las fotos, mientras que el reconocimiento de emociones permite realizar ajustes más efectivos del tono de la historia. Los cuadros delimitadores de rostros detectados en las fotos se utilizan principalmente para la colocación y el recorte automáticos óptimos de las fotos. Las emociones se utilizan para ayudar a seleccionar un mejor tono para que sea más divertido o más nostálgico (por ejemplo). Además, Amazon Rekognition mejora la seguridad al identificar contenido potencialmente objetable.

La canalización de inferencia está impulsada por un AWS Lambda-arquitectura de múltiples pasos basada en IA, que maximiza la rentabilidad y la elasticidad al ejecutar pasos de análisis de imágenes independientes en paralelo. Funciones de pasos de AWS permite la sincronización y ordenación de pasos interdependientes.

Los títulos de las imágenes son generados por un Amazon SageMaker punto final de inferencia, que se mejora mediante un Amazon ElastiCache para el búfer con tecnología Redis. El búfer se implementó después de evaluar el rendimiento del modelo de subtitulado. La evaluación comparativa reveló que el modelo funcionó de manera óptima al procesar lotes de imágenes, pero tuvo un rendimiento inferior al analizar imágenes individuales.

Generación

El mecanismo de generación de subtítulos detrás de la función de asistente de escritura es lo que convierte a Mixbook Studio en una herramienta de creación de historias en lenguaje natural. Impulsado por un modelo de lenguaje de Llama, el asistente inicialmente utilizó indicaciones cuidadosamente diseñadas creadas por expertos en inteligencia artificial. Sin embargo, el equipo de Mixbook Storyarts buscó un control más granular sobre el estilo y el tono de los subtítulos, lo que llevó a un equipo diverso que incluía a un guionista nominado al Emmy que revisaba, ajustaba y agregaba ejemplos únicos hechos a mano. Esto resultó en un proceso de ajuste del modelo, moderación de respuestas modificadas e implementación de modelos aprobados para lanzamientos experimentales y públicos. Después de la inferencia, se crean tres subtítulos y se almacenan en Servicio de base de datos relacional de Amazon (Amazon RDS).

La siguiente imagen muestra la función Subtítulos inteligentes de Mixbook en Mixbook Studio.

Beneficios

Mixbook implementó esta solución para brindar nuevas funciones a sus clientes. Brindó una mejor experiencia de usuario y eficiencia operativa.

Experiencia de usuario

  • Narración mejorada:Capta las emociones y experiencias de los usuarios, ahora bellamente expresadas a través de subtítulos sinceros.
  • Deleite del usuario: Agrega un elemento de sorpresa con subtítulos que no solo son precisos, sino también encantadores e imaginativos. Una usuaria encantada, Hanie U, dice: “Espero que se publiquen más experiencias con subtítulos en el futuro”. Otra usuaria, Megan P., dice: “¡Funcionó de maravilla!” Los usuarios también pueden editar los subtítulos generados.
  • Eficiencia de tiempo:Nadie tiene tiempo para luchar con los subtítulos. La función ahorra un tiempo valioso y hace que las historias de los usuarios destaquen.
  • Seguridad y corrección:Los subtítulos se generaron de manera responsable, aprovechando las barreras de protección para garantizar la moderación y la relevancia del contenido.

Sistema

  • Elasticidad y escalabilidad de Lambda
  • Orquestación de flujo de trabajo comprensible con Step Functions
  • Variedad de modelos base de SageMaker y capacidades de ajuste para un máximo control

Como resultado de la mejora en la satisfacción del usuario, Mixbook ha sido nombrado homenajeado oficialmente por Premios Webby en 2024 para Aplicaciones y software: el mejor uso de la IA y el aprendizaje automático.

“AWS nos permite escalar las innovaciones que más les gustan a nuestros clientes. Y ahora, con las nuevas capacidades de inteligencia artificial generativa de AWS, podemos sorprender a nuestros clientes con un poder creativo que nunca creyeron posible. Innovaciones como esta son la razón por la que nos asociamos con AWS desde la versión beta en 2006”.

– Andrew Laffoon, director ejecutivo de Mixbook

Conclusión

Mixbook comenzó a experimentar con soluciones de inteligencia artificial generativa de AWS para ampliar su aplicación existente a principios de 2023. Comenzaron con una prueba de concepto rápida para obtener resultados que mostraran el arte de lo posible. El desarrollo, las pruebas y la integración continuos utilizando la variedad de servicios de AWS en computación, almacenamiento, análisis y aprendizaje automático les permitieron iterar rápidamente. Después de lanzar las funciones de Smart Caption en versión beta, pudieron ajustar rápidamente según los patrones de uso del mundo real y proteger el valor del producto.

Probar Libro de mezclas Estudio para experimentar la narración de historias. Para obtener más información sobre las soluciones de inteligencia artificial generativa de AWS, comience con Transforme su negocio con IA generativaPara escuchar más de los líderes de Mixbook, escuche el Podcast AWS re:Think Disponible de Arte19, Podcasts de Appley Spotify.


Sobre los autores

Vlad Lébedev es un líder sénior de tecnología en Mixbook. Dirige un equipo de ingeniería de productos responsable de transformar Mixbook en un lugar para contar historias conmovedoras. Se basa en más de una década de experiencia práctica en desarrollo web, diseño de sistemas e ingeniería de datos para generar soluciones elegantes para problemas complejos. A Vlad le gusta aprender sobre culturas contemporáneas y antiguas, sus historias e idiomas.

DJ Charles es el director de tecnología de Mixbook. Ha disfrutado de una carrera de 30 años diseñando diseños interactivos y de comercio electrónico para las mejores marcas. Innovar en tecnología de banda ancha para la industria del cable en los años 90, revolucionar los procesos de la cadena de suministro en los años 2000 y avanzar en la tecnología medioambiental en Perillon condujo a plataformas globales de pujas en tiempo real para marcas como Sotheby’s y eBay. Más allá de la tecnología, a DJ le encanta aprender a tocar nuevos instrumentos musicales, el arte de componer canciones y se involucra profundamente en la producción e ingeniería musical en su tiempo libre.

Malini Chatterjee es arquitecta de soluciones sénior en AWS. Brinda orientación a los clientes de AWS sobre sus cargas de trabajo en una variedad de tecnologías de AWS. Aporta una amplia experiencia en análisis de datos y aprendizaje automático. Antes de unirse a AWS, diseñaba soluciones de datos en industrias financieras. Le apasiona la danza semiclásica y actúa en eventos comunitarios. Le encanta viajar y pasar tiempo con su familia.

Jessica Oliveira es gerente de cuentas en AWS y brinda orientación y apoyo a las ventas comerciales en el norte de California. Le apasiona generar colaboraciones estratégicas para garantizar el éxito de sus clientes. Fuera del trabajo, disfruta de viajar, aprender sobre diferentes idiomas y culturas y pasar tiempo con su familia.