Esta publicación fue coescrita con Bradley Grantham y Hugo Dugdale de Popsa.
Popsa es una empresa de tecnología que ayuda a los usuarios a redescubrir y revivir los recuerdos significativos escondidos en sus bibliotecas de fotografías. Disponible en más de 50 países y 12 idiomas, utilizamos la automatización del diseño y la inteligencia artificial para transformar las fotografías cotidianas en experiencias personales que se pueden compartir, incluidos álbumes de fotos bellamente impresos.
En 2016, lanzamos PrintAI, un algoritmo pionero que toma el control total de la creación de un diseño variado e interesante a partir de las fotografías de un usuario. Nuestros clientes podrían utilizar el algoritmo para crear álbumes de fotos que parecieran diseñados profesionalmente, en menos de 5 minutos.
Una filosofía central de nuestro negocio es que la tecnología debe hacer el trabajo pesado para nuestros usuarios, por lo que la automatización siempre ha sido una parte intrínseca de nuestro producto. En la era actual de la IA generativa, podemos desarrollar aún más formas de mejorar la experiencia de nuestros clientes, sin hacer que nuestro software sea más complicado de usar.
En esta publicación, compartimos cómo aplicamos Amazon Bedrock y la familia de modelos Amazon Nova para reinventar nuestra función de sugerencia de título. Al combinar metadatos, visión por computadora e IA generativa con recuperación aumentada, ahora generamos automáticamente títulos y subtítulos creativos y alineados con la marca en 12 idiomas. Utilizando la API unificada de Amazon Bedrock, Claude 3 Haiku de Anthropic y Amazon Nova Lite y Pro, mejoramos la calidad, reducimos costos y reducimos los tiempos de respuesta. Esto resultó en una mayor satisfacción del cliente, aumentos mensurables en las tasas de participación y compra, y más de 5,5 millones de títulos personalizados generados en 2025.
Generando sugerencias de títulos con Amazon Bedrock
Cuando un cliente recibe su álbum de fotos, lo primero que ve es la portada, con un título y un subtítulo destacados. Un título y un subtítulo de alta calidad realzan el diseño de un fotolibro, sin embargo la mayoría de los clientes no son redactores profesionales y muchos de ellos se conforman con títulos simples como “Francia 2024”, “Fotos de España” o incluso “Fotos”.
Para ayudar a los usuarios a mejorar sus fotos, desarrollamos y lanzamos una función llamada Sugerencia de título, que ha estado disponible para nuestros usuarios desde 2021.
Cuando los usuarios seleccionan fotografías para el diseño de un libro de fotos, nuestra aplicación móvil lee metadatos (como marcas de tiempo y coordenadas geográficas) de las imágenes y ejecuta redes neuronales convolucionales en el dispositivo para extraer características relevantes. Por ejemplo, si la imagen contiene una playa, una barbacoa o una mascota.
Para utilizar estos datos, creamos un algoritmo llamado Gráfico de sugerencia de título. Este algoritmo utilizó los metadatos y los datos de las fotografías seleccionadas para crear una lista de posibles títulos, siguiendo un conjunto de reglas y plantillas para llegar a un conjunto de sugerencias adecuadas. Por ejemplo:
Si todas las fotos del diseño fueron tomadas el mismo día
luego sugiera “En este día” como título con un subtítulo de la fecha específica
En junio de 2024, identificamos una oportunidad para mejorar la sugerencia de títulos mediante la aplicación de IA generativa, con el objetivo de inspirar a nuestros usuarios con títulos más creativos. Comenzamos definiendo claramente el problema y estableciendo métricas de evaluación. Nuestra solución debía cumplir unos requisitos estrictos:
Límite de caracteres Tanto el título como el subtítulo no deben exceder los 36 caracteres debido a restricciones de diseño que afectan la forma en que se mostraría el texto en la portada. Categoría de título Cada par de título y subtítulo también debe tener una categoría asociada que determine el icono que se muestra junto al par a los usuarios. Las categorías imaginadas o incorrectas impedirían que se representara un icono. Formato JSON Finalmente, todas las salidas deben ser JSON válido con las claves `título`, `subtítulo` y `categoría`. Esto ayudó con el análisis, la validación y la representación consistentes en la aplicación.
Estas reglas ayudaron con la evaluación porque se podían definir en código, por lo que creamos un conjunto de datos de más de 100 álbumes de fotos de ejemplo y definimos nuestras métricas en un proceso de evaluación:
% de sugerencias de títulos/subtítulos dentro del límite de caracteres % de categorías de títulos válidas % de respuestas en el formato JSON correcto
Además de estas reglas estrictas, necesitábamos que nuestra solución cumpliera con algunas pautas más amplias:
Coherencia del tema Las categorías deben coincidir con el contenido (por ejemplo, los íconos de esquí no serían apropiados si el tema del diseño fuera unas vacaciones en la playa) Estilo de marca Las sugerencias deben reflejar el tono y la identidad de marca de Popsa Cohesión título-subtítulo Los pares deben complementarse entre sí; no deben ser repetitivos ni inconexos. Calidad multilingüe Las sugerencias debían ser de alta calidad en los 12 idiomas que admitimos.
Decidimos utilizar un LLM como juez para evaluar el desempeño según estas pautas. Esto nos ayudó a probar rápidamente diferentes modelos, indicaciones y métodos para identificar el enfoque más confiable. Después de limitarnos a dos o tres opciones, realizamos pruebas internas exhaustivas.
Nuestros mejores resultados provinieron de indicaciones de pocos disparos basadas en recuperación. Creamos una base de datos de libros de fotos de ejemplo y sugerencias de títulos aceptables. Para un nuevo libro de fotos, recuperamos algunos diseños de libros de fotos similares y una selección aleatoria de sus títulos sugeridos.
Utilizando Amazon Bedrock y Claude 3 Haiku de Anthropic, sembramos la conversación con estos ejemplos como mensajes antes de agregar el nuevo documento de diseño del usuario como mensaje final. Esto permitió que el modelo de lenguaje grande (LLM) emulara respuestas anteriores mientras seguía naturalmente las reglas que definimos.
Nuestra arquitectura completa para esta solución se puede ver en el siguiente diagrama:
Cuando nuestro Servicio de sugerencia de títulos recibe una solicitud, primero descifra y procesa el diseño del usuario para extraer las marcas de tiempo. Luego, realiza una operación de geocodificación inversa en cualquier latitud y longitud incluida en el diseño y luego clasifica el tema del diseño según los puntos de referencia del objeto.
Esto genera una descripción como “Un fotolibro de esquí con 21 fotografías tomadas en los Alpes entre el 21 de enero de 2025 y el 23 de enero de 2025”. Luego pasamos esta descripción a nuestro componente de indicaciones de pocas tomas basado en recuperación para producir un conjunto final de sugerencias para el usuario.
Las comparaciones con nuestro método anterior basado en gráficos muestran mejores resultados:
Para cuantificar las mejoras, nos basamos en un circuito de retroalimentación, donde los clientes calificaron las sugerencias como positivas, neutrales o negativas. También realizamos pruebas multivariadas con cientos de miles de usuarios. Los comentarios favorecieron fuertemente los títulos de IA generativa, y métricas clave como Diseño creado y Compra también mejoraron. Después de varios meses, implementamos la función para el 100 % de nuestros usuarios.
Al pasar del algoritmo Graph a Claude 3 Haiku para generar sugerencias de títulos, aumentamos los comentarios positivos de los usuarios en un 13 % (del 58 % al 71 %).
Mejorar la satisfacción del cliente y reducir costos con Amazon Nova
Desde el relanzamiento de Title Suggestions basado en IA generativa en 2024, la tecnología LLM ha mejorado significativamente en rendimiento, costo y velocidad. La API unificada de Amazon Bedrock nos ha ayudado a comparar y probar nuevos modelos cambiando los ID de los modelos y enviando experimentos en horas en lugar de semanas. Recientemente probamos la familia Amazon Nova (Micro, Lite y Pro), que admite más de 200 idiomas con baja latencia.
A principios de 2025, realizamos una prueba A/B multivariante comparando los modelos Claude 3 Haiku y Nova, rastreando métricas de barrera y recopilando preferencias directas de los usuarios a través de nuestra función de comentarios en la aplicación.
Las pruebas de varios modelos para la generación de títulos mostraron que, si bien Claude 3 Haiku (71 % positivo) tuvo un buen desempeño, Nova Pro logró la mayor satisfacción del usuario con un 73 % de comentarios positivos y el menor comentario negativo con un 12 %.
Si bien Nova Micro-superó a nuestro método Graph heredado, quedó rezagado en cuanto a satisfacción del usuario en comparación con otros LLM y fue dejado de lado. Entre los modelos restantes, nos centramos no sólo en la calidad, sino también en el costo, la latencia y el rendimiento, como se muestra en la siguiente tabla. Estas comparaciones dejaron en claro que Nova Lite ofrecía una calidad casi idéntica a la de Claude Haiku a un costo menor y tiempos de respuesta más rápidos.
Modelo Precio por 1000 tokens de entrada Precio por 1000 tokens de salida Tiempo de respuesta (segundos para generar 500 tokens) Claude 3 Haiku $0,00025 $0,00125 6,8 Amazon Nova Lite $0,000069 $0,000276 2,4 Amazon Nova Pro $0,00092 $0,00368 3,4
*precios tomados de la página de precios de Amazon Bedrock
*métricas de rendimiento tomadas del Análisis Artificial
Reducir el tiempo hasta la primera sugerencia con la API ConverseStream
Una de las métricas de latencia clave que rastreamos es el tiempo hasta la primera sugerencia (TTFS), que mide la rapidez con la que aparece la primera sugerencia válida después de una solicitud de usuario. Incluso si se generan más opciones en segundo plano, reducir TTFS hace que la función parezca más receptiva, por lo que las sugerencias son visibles antes de que el usuario continúe.
Para mejorar nuestro TTFS, migramos de la API InvokeModel de Amazon Bedrock a la API ConverseStream, para transmitir tokens a medida que se generan. Debido a que nuestros servicios requieren tripletes título-subtítulo-categoría válidos, ampliamos FastAPI para analizar transmisiones en tiempo real, devolviendo la primera sugerencia inmediatamente después de la validación. Las sugerencias adicionales continúan transmitiéndose en segundo plano, pero el cliente ya tiene algo listo para mostrar.
Este cambio redujo drásticamente el TTFS a menos de un segundo para la primera sugerencia pulida, en lugar de esperar a que se complete un lote completo de sugerencias.
Al migrar a la API de ConverseStream, redujimos el tiempo promedio hasta la primera sugerencia de 1,41 segundos a 0,92 segundos, entregando sugerencias de títulos un 35% más rápido a los usuarios.
¿Qué sigue?
En 2025, nuestra función de sugerencia de títulos generó más de 5,5 millones de títulos, brindando información sobre lo que resuena, lo que no y cómo las personas interactúan con nuestras sugerencias. Ese circuito de retroalimentación seguirá impulsando la evolución de la función.
De cara al futuro, planeamos utilizar modelos más grandes como Nova Pro para una parte de nuestra base de usuarios, para capturar la creatividad y los matices y al mismo tiempo operar de manera rentable a escala. Los datos que recopilemos de estos experimentos nos ayudarán a perfeccionar los modelos más pequeños, ayudándolos a heredar las fortalezas de sus contrapartes más grandes sin comprometer la latencia o la asequibilidad.
El trabajo futuro incluye integraciones de herramientas que brindan al LLM un contexto más rico sobre cada libro de fotos, desde detalles del evento hasta señales estacionales, con el objetivo de generar títulos más personalizados, temáticos y alineados con la marca.
Estos desarrollos continúan nuestra misión: permitir que cualquier persona, sin importar su nivel de habilidad, convierta rápidamente sus fotografías en recuerdos significativos, creativos y preciados.