Warner Bros. Discovery logra un ahorro de costos del 60 % y una inferencia de aprendizaje automático más rápida con AWS Graviton

Esta publicación está escrita por Nukul Sharma, gerente de ingeniería de aprendizaje automático, y Karthik Dasani, ingeniero de aprendizaje automático de Warner Bros. Discovery.

Warner Bros. Discovery (WBD) es una empresa líder mundial en medios y entretenimiento que crea y distribuye la cartera de contenidos y marcas más diferenciada y completa del mundo en televisión, cine y streaming. Con marcas icónicas como HBO, Discovery Channel, Warner Bros., CNN, DC Entertainment y muchas otras, WBD ofrece narraciones de primera calidad a audiencias de todo el mundo a través de diversos sistemas y experiencias. Nuestros servicios de transmisión, incluidos HBO Max y Discovery+, representan una piedra angular de nuestra estrategia directa al consumidor, ofreciendo a los espectadores un acceso sin precedentes a nuestras más de 200 000 horas de programación.

En esta publicación, describimos la escala de nuestras ofertas, los requisitos de infraestructura de inferencia de inteligencia artificial (IA)/aprendizaje automático (ML) para nuestros sistemas de recomendación en tiempo real y cómo utilizamos instancias de IA de Amazon SageMaker basadas en AWS Graviton para nuestras cargas de trabajo de inferencia de ML y logramos ahorros de costos del 60 % y mejoras de latencia del 7 % al 60 % en diferentes modelos.

Marcas de Warner Bros. Discovery (WBD)

En el mundo del entretenimiento digital en rápida evolución, el contenido excepcional por sí solo no es suficiente: los espectadores necesitan descubrir programas que coincidan con sus intereses únicos. Ofrecer contenido altamente personalizado se ha vuelto esencial para atraer al público, impulsar las sesiones de visualización y construir relaciones duraderas con los usuarios. Para atender eficazmente a nuestra base diversa de más de 125 millones de usuarios en más de 100 países (a partir de 2025), empleamos ciencia de datos, análisis del comportamiento del usuario y selección humana para predecir lo que les encantará a los espectadores. Nuestro trabajo se centra en crear algoritmos de recomendación dinámicos y adaptar sugerencias a las preferencias individuales, mientras probamos y refinamos continuamente estrategias para mejorar la precisión de la relevancia del contenido.

El desafío: ampliar la personalización a nivel mundial y al mismo tiempo gestionar los costos

La infraestructura de búsqueda y personalización de HBO Max abarca 9 regiones de AWS repartidas en EE. UU., EMEA y APAC para ofrecer recomendaciones localizadas adaptadas a las preferencias regionales. Esta amplia infraestructura nos permite mantener requisitos de latencia consistentes por debajo de 100 ms y, al mismo tiempo, brindar recomendaciones de contenido personalizadas en diversas regiones geográficas.

Con una amplia cartera de nuestras queridas marcas combinada con una base de usuarios diversa, enfrentamos el desafío de personalizar las recomendaciones de contenido sin comprometer el presupuesto. Los sistemas de recomendación son críticos para la latencia; deben ejecutarse en tiempo real, lo que implica requisitos estrictos para la infraestructura de aprendizaje automático necesaria para implementar nuestros servicios. Este desafío de descubrimiento de contenido requiere sistemas de recomendación sofisticados que puedan funcionar de manera confiable a escala masiva, incluso durante los estrenos importantes, cuando el tráfico aumenta hasta un 500% en cuestión de minutos. Buscábamos rendimiento en tiempo real y una solución de infraestructura rentable para nuestras cargas de trabajo de IA/ML.

Nuestra solución: uso de AWS Graviton para una inferencia de aprendizaje automático rentable a escala

Nuestra solución combinó dos tecnologías clave de AWS: procesadores AWS Graviton y Amazon SageMaker AI. Este enfoque integrado nos permitió abordar de manera integral nuestros desafíos de rendimiento y costos.

AWS Graviton es una familia de procesadores diseñada para ofrecer el mejor precio y rendimiento para cargas de trabajo en la nube que se ejecutan en Amazon Elastic Compute Cloud (Amazon EC2) y servicios totalmente administrados. También están optimizados para cargas de trabajo de aprendizaje automático, incluidos motores de procesamiento de vectores Neon, compatibilidad con instrucciones bfloat16, extensión vectorial escalable (SVE) y multiplicación de matrices (MMLA), lo que los convierte en una opción ideal para nuestros sistemas de recomendación de latencia crítica.

Decidimos probarlos para nuestros modelos de aprendizaje automático basados ​​en XGBoost y TensorFlow, para lo cual seguimos un proceso de dos pasos. Primero, comenzamos con un entorno de espacio aislado, ajustamos los trabajadores y los subprocesos para maximizar el rendimiento en una sola instancia y observamos un rendimiento sustancialmente mejor en comparación con las instancias basadas en x86 de nuestra flota. En segundo lugar, pasamos al tráfico de producción, donde realizamos pruebas paralelas para confirmar el costo y los beneficios de rendimiento que observamos en el entorno independiente. Notamos que las instancias de Graviton podían escalar casi linealmente incluso con una mayor carga de CPU. Reconfiguramos nuestras configuraciones de escala automática para aumentar la utilización de la instancia y, debido a que las instancias de Graviton pudieron manejar el tráfico en ráfagas de manera más efectiva, también redujimos la cantidad mínima de instancias. Además, equilibramos el costo y el rendimiento para no afectar a uno al optimizar demasiado el otro.

El recomendador de inferencia de SageMaker jugó un papel crucial en la optimización de nuestro flujo de trabajo de pruebas. Al automatizar el proceso de evaluación comparativa entre diferentes tipos de instancias y configuraciones, esta herramienta redujo significativamente el tiempo necesario para identificar configuraciones óptimas para nuestros modelos. El análisis de rendimiento automatizado nos ayudó a tomar decisiones basadas en datos sobre la selección de instancias y aceleró nuestro proceso de implementación de modelos.

Para validar el rendimiento y la confiabilidad de nuestra nueva infraestructura, utilizamos las capacidades de prueba paralela de Amazon SageMaker. Este marco de prueba permitió a nuestro equipo evaluar nuevas implementaciones junto con los sistemas de producción existentes, proporcionando comparaciones de rendimiento del mundo real sin arriesgar el impacto en la experiencia de nuestros usuarios. Este enfoque resultó particularmente valioso para los usuarios de nuestro equipo de plataforma de aprendizaje automático (MLP) mientras evaluaban varias modificaciones de la infraestructura. Al ejecutar pruebas paralelas de diferentes configuraciones de hardware y ajustar los parámetros de inferencia, pudimos evaluar exhaustivamente el rendimiento del sistema antes de comprometernos con cambios. Este método de prueba estratégico nos ayudó a anticipar problemas potenciales y optimizar las configuraciones en las primeras etapas de nuestro proceso de implementación.

El siguiente diagrama destaca la implementación de un extremo a otro de nuestra carga de trabajo de inferencia de ML en AWS. Como se muestra aquí, ya hemos estado utilizando múltiples servicios de AWS totalmente administrados, como Amazon SageMaker, Amazon Simple Storage Service (Amazon S3) y Amazon DynamoDB para lograr los objetivos de nuestros sistemas de recomendación. Esta vez, dimos un paso adelante para migrar a instancias basadas en AWS Graviton, lo que resultó en ahorros de costos y mejor rendimiento.

Resultados

La migración a instancias basadas en AWS Graviton desde instancias basadas en x86 arrojó resultados notables en toda nuestra cartera de sistemas de recomendación.

Logró un ahorro de costos del 60 %

Nuestro análisis integral reveló reducciones sustanciales de costos en todos nuestros modelos de personalización, logrando un ahorro de costos promedio del 60 %. Las mejoras fueron particularmente notables en nuestros modelos de ranking de catálogo, donde observamos reducciones de costos de hasta un 88%.

Latencias promedio y p99 mejoradas, que van del 7% al 60% en diferentes modelos

Además de ahorrar costos, también logramos importantes mejoras en el rendimiento. Las mejoras en la latencia del P99 fueron impresionantes en todo nuestro conjunto de modelos y nuestro modelo XGBoost mostró una espectacular reducción del 60 % en la latencia. Otros modelos de nuestra cartera demostraron mejoras constantes en la latencia de hasta un 21 %. El siguiente panel de nuestras pruebas A/B destaca cómo la migración a instancias de aprendizaje automático basadas en AWS Graviton mejoró las latencias promedio y p99 y redujo sustancialmente el recuento de instancias. VERDE Las líneas son de servidores basados ​​en x86 en nuestra flota y el AMARILLO Las líneas son de servidores basados ​​en AWS Graviton.

Experiencia de usuario mejorada

Al reducir la latencia, mejoramos significativamente el rendimiento de nuestros servicios y la experiencia de usuario de nuestros clientes; Los espectadores experimentaron recomendaciones más receptivas que se adaptaban mejor a sus intereses.

Experimenté una migración perfecta

Tuvimos una excelente colaboración con los equipos de servicio y cuentas de AWS durante todo el proyecto. La migración fue perfecta. Desde la evaluación comparativa inicial hasta la migración final tomó alrededor de un mes; La prueba de concepto en un modelo de clasificación de catálogo que proporcionó un ahorro de costos del 60% se realizó en una semana, mucho más rápido que el tiempo que habíamos estimado originalmente.

Motivado para lograr que el 100% del sistema de recomendación se ejecute en una instancia basada en Graviton

Teniendo en cuenta los importantes ahorros de costos que hemos logrado con la adopción de Graviton, actualmente estamos trabajando para migrar nuestros modelos restantes a Graviton con el objetivo de lograr que el 100 % del sistema de recomendación se ejecute en instancias basadas en Graviton.

Conclusión

Al migrar nuestras cargas de trabajo de inferencia de aprendizaje automático a instancias basadas en AWS Graviton, hemos transformado la forma en que ofrecemos recomendaciones de contenido personalizadas a nuestros más de 125 millones de usuarios en más de 100 países. La migración arrojó resultados impresionantes con reducciones de costos de un promedio del 60 % en nuestros sistemas de recomendación y mejoras de latencia que oscilaron entre el 7 % y el 60 % en diferentes modelos. Estas mejoras en el rendimiento se traducen en resultados comerciales tangibles: los espectadores experimentan recomendaciones más receptivas que se adaptan mejor a sus intereses, lo que resulta en una participación más profunda, sesiones de visualización más prolongadas y, en última instancia, una mayor retención en nuestros sistemas, todo mientras nos permite escalar nuestras operaciones de manera eficiente.

En general, la adopción de los procesadores AWS Graviton ejemplifica cómo las soluciones innovadoras en la nube pueden impulsar tanto la eficiencia operativa como el valor empresarial. Nuestra experiencia demuestra que las organizaciones pueden equilibrar con éxito las demandas competitivas de rendimiento, costo y escala en el panorama empresarial en rápida evolución. A medida que continuamos optimizando nuestra infraestructura de aprendizaje automático, estas mejoras nos ayudarán a mantenernos competitivos y al mismo tiempo brindar experiencias cada vez más personalizadas a nuestra audiencia global.

Para obtener más información, consulte lo siguiente:

El equipo de WBD desea agradecer a Sunita Nadampalli, Utsav Joshi, Karthik Rengasamy, Tito Panicker, Sapna Patel y Gautham Panth de AWS por sus contribuciones a esta solución.

Sobre los autores

Nukul Sharma es gerente de ingeniería de aprendizaje automático con más de 18 años de experiencia liderando equipos de ingeniería y MLOps de alto rendimiento en Warner Bros. Discovery. Experto en el desarrollo de soluciones escalables, canalizaciones de aprendizaje automático de un extremo a otro, sistemas en la nube y CI/CD. Historial comprobado en la entrega de personalización impactante y soluciones MLOps que impulsan la eficiencia y el crecimiento.

Karthik Dasani es ingeniero de aprendizaje automático con experiencia en sistemas de recomendación a gran escala y operaciones de aprendizaje automático en Warner Bros. Discovery. Tiene una amplia experiencia en la producción de soluciones de IA con un fuerte enfoque en la optimización del rendimiento y los costos. Su trabajo une la investigación aplicada y los sistemas de aprendizaje automático escalables del mundo real.

Acerca del equipo de AWS

Sunita Nadampalli es ingeniera principal y experta en IA/ML en AWS. Dirige las optimizaciones de rendimiento del software AWS Graviton para cargas de trabajo de IA/ML y HPC. Le apasiona el desarrollo de software de código abierto y la entrega de soluciones de software sostenibles y de alto rendimiento para SoC basados ​​en Arm ISA.

Utsav Joshi es director técnico principal de cuentas en AWS. Vive en Nueva Jersey y disfruta trabajar con clientes de AWS para resolver desafíos arquitectónicos, operativos y de optimización de costos. En su tiempo libre, le gusta viajar, viajar por carretera y jugar con sus hijos.

Karthik Rengasamy es arquitecto senior de soluciones en AWS y se especializa en ayudar a los clientes de medios y entretenimiento a diseñar y escalar sus arquitecturas de nube. Se centra en soluciones de transmisión de vídeo, archivos y cadena de suministro de medios, y trabaja en estrecha colaboración con los clientes para impulsar la innovación y optimizar las cargas de trabajo de medios en AWS. Su pasión radica en crear soluciones seguras, escalables y rentables que transformen la forma en que se gestionan y entregan los medios a audiencias globales.

Tito Panicker es un arquitecto sénior de soluciones globales que ayuda a los clientes empresariales más grandes a diseñar soluciones seguras, escalables y resistentes en la nube. Su principal área de enfoque es la vertical de medios y entretenimiento, donde se especializa en transmisión directa al consumidor (D2C), datos/análisis, IA/ML e IA generativa.

Sapna Patel es gerente principal de soluciones para clientes en AWS y ayuda a los clientes de medios y entretenimiento a optimizar su viaje a la nube a través de orientación estratégica y gestión de relaciones. Se centra en impulsar el éxito de los clientes alineando las soluciones de AWS con los objetivos comerciales, asegurándose de que los clientes maximicen el valor de sus inversiones en la nube y al mismo tiempo logren sus objetivos técnicos y operativos.

Gautham Panth es director principal de productos en AWS y se centra en la creación de soluciones pioneras de infraestructura en la nube. Con más de 20 años de experiencia interdisciplinaria que abarca computación en la nube, infraestructura empresarial y software, Gautham aprovecha su comprensión integral de los desafíos de los clientes para impulsar la dirección y las capacidades futuras de las ofertas de AWS.