Cómo Outpost VFX utiliza AWS para acelerar el entrenamiento de modelos de IA para efectos visuales

Esta publicación fue coescrita con Tim Chauncey y Dheeraj Bhadani de Outpost VFX.

El entrenamiento de modelos de IA para efectos visuales (VFX) puede llevar semanas, lo que crea cuellos de botella en los plazos de producción. Para Outpost VFX, que opera estudios en el Reino Unido, Canadá e India que ofrecen películas y contenido episódico de alta gama, cada día de retraso afecta los resultados de los clientes y los cronogramas de los proyectos.

En esta publicación, exploramos cómo Outpost VFX logró velocidades de entrenamiento 8 veces más rápidas utilizando la infraestructura de AWS para transformar su flujo de trabajo de reemplazo de rostros, la arquitectura técnica que implementaron para superar las limitaciones de una sola GPU y los resultados medibles logrados a través del entrenamiento de múltiples GPU de AWS.

El desafío: cuellos de botella de una sola GPU en el entrenamiento de IA

Los flujos de trabajo tradicionales de reemplazo de rostros en la producción de efectos visuales requieren más de cinco días de composición o apoyo especializado en belleza y rejuvenecimiento para crear versiones iniciales para la aprobación del director. Si bien son efectivos, estos métodos crean cuellos de botella en las primeras etapas del proceso de aprobación iterativo, la fase más crítica para los cronogramas de producción. Para los profesionales de VFX, una formación lenta en IA se traduce directamente en plazos incumplidos, aumento de costes y retrasos en los ciclos de retroalimentación de los clientes.

Outpost VFX había desarrollado un modelo de inteligencia artificial capaz de entrenarse en imágenes del set para acelerar los procesos de reemplazo de rostros. Sin embargo, la eficiencia se vio limitada por las limitaciones informáticas de una sola GPU. La herramienta de intercambio de caras existente solo podía utilizar una GPU a la vez, lo que limitaba el acceso a la memoria de acceso aleatorio de vídeo (VRAM) y la capacidad de procesamiento para las operaciones de entrenamiento de modelos. Esto impidió que el equipo aprovechara todo el potencial de su enfoque asistido por IA.

Consideraciones de diseño

Outpost VFX identificó tres requisitos técnicos críticos para optimizar su flujo de trabajo de IA:

Escalabilidad informática: el equipo necesitaba paralelizar el entrenamiento del modelo de reemplazo facial en múltiples GPU para lograr mejoras significativas en la eficiencia. El entrenamiento con una sola GPU estaba generando retrasos de una semana en los ciclos de iteración del modelo. Seguridad de la infraestructura: como cliente de AWS desde 2022 con una pila de tecnología totalmente virtualizada, Outpost VFX necesitaba la solución para cumplir con sus exigentes requisitos de seguridad para el procesamiento de datos de producción altamente confidenciales. Optimización del rendimiento: más allá de las mejoras de velocidad bruta, la arquitectura necesitaba admitir conjuntos de datos más grandes e imágenes de mayor resolución para mejorar la calidad de salida.

Para abordar estos requisitos, Outpost VFX colaboró ​​con los desarrolladores del Centro de innovación de IA generativa de AWS, que trabajaron como una extensión de su departamento de tecnología para modernizar sus algoritmos de aprendizaje de IA. El Centro de innovación de IA generativa de AWS es un equipo de estrategas, científicos de datos, ingenieros y arquitectos de soluciones que trabaja paso a paso con los clientes para crear soluciones personalizadas que aprovechen el poder de la IA generativa. Obtenga más información sobre cómo interactuar con el equipo en la página web del Centro de innovación de IA generativa.

Implementación de arquitectura

La solución implicó adaptar el código base del modelo de intercambio de caras existente de Outpost VFX para admitir el entrenamiento de GPU distribuido en múltiples GPU. La implementación utilizó instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2) con múltiples GPU de AWS dentro de un entorno de nube seguro y segregado que se alineaba con los requisitos de infraestructura existentes de Outpost VFX.

Originalmente, Outpost VFX entrenó sus modelos de intercambio de caras en estaciones de trabajo aceleradas por GPU. Esto implicó recopilar pequeños conjuntos de datos de actores y sus dobles y ajustar un modelo base en GPU RTX 3090. Si bien este método funcionó, el equipo de Outpost descubrió que el tiempo de entrenamiento era lento, alrededor de 1 a 2 semanas por ajuste. La ampliación habría sido difícil debido a la sobrecarga de gestión de esas estaciones de trabajo en la nube. En este punto, analizaron la capacitación en instancias P5.

Las instancias P5 cuentan con GPU NVIDIA H100, diseñadas específicamente para cargas de trabajo de capacitación distribuidas. A diferencia de las instancias de la serie G que utilizan comunicación PCIe entre GPU, las instancias P5 proporcionan interconexiones NV Link que ofrecen un ancho de banda significativamente mayor para la sincronización de gradientes, lo cual es un factor crítico cuando se entrena en múltiples GPU. Los 14.592 núcleos CUDA del H100 y los 80 GB de memoria HBM3 de alto ancho de banda también representaron una mejora sustancial con respecto a su configuración local RTX 3090.

Outpost VFX trabajó con el Centro de innovación de IA generativa para ayudarlos a ejecutar su modelo en las instancias P5. Durante un período de asesoramiento de seis semanas, los científicos de AWS convirtieron el código del modelo para utilizar la estrategia de capacitación PyTorch Distributed Data Parallel (DDP). DDP es una técnica de paralelización que copia los pesos del modelo en cada GPU, lo que permite que el sistema procese más imágenes en cada lote de entrenamiento. Este enfoque aumenta la cantidad de imágenes que se pueden incluir en cada lote, lo que acelera directamente el proceso de capacitación.

La implementación técnica incluyó la paralelización de múltiples GPU del entrenamiento del modelo de reemplazo facial, una arquitectura de seguridad mejorada para datos de producción confidenciales y la integración con la pila de tecnología existente basada en AWS de Outpost VFX. A medida que Outpost VFX continúa evolucionando su canal de IA, el equipo ve potencial en servicios como Amazon SageMaker AI con capacitación administrada, control de versiones de modelos e inferencia alojada para optimizar aún más la forma en que desarrollan e implementan modelos en sus estudios globales.

Medición de mejoras en el desempeño

Para probar la mejora de la velocidad del entrenamiento multi-GPU, Outpost VFX recopiló un conjunto de datos de imágenes para el entrenamiento, fijó los hiperparámetros del modelo y midió el tiempo necesario para que el entrenamiento alcanzara un umbral de pérdida específico. Establecieron la línea de base como una GPU en una instancia G5 en comparación con la ejecución de los modelos en las instancias P5.

El esfuerzo de desarrollo combinado entre Outpost VFX y AWS logró una mejora de hasta 8 veces en las velocidades de aprendizaje del modelo de reemplazo facial. Este aumento de rendimiento se tradujo directamente en ciclos de iteración más rápidos, lo que permitió procesos de aprobación del director más rápidos para las primeras versiones. La capacidad de entrenar modelos con imágenes de mayor resolución y conjuntos de datos más grandes mejoró la calidad de los resultados. Lo más significativo es que la entrega de v001 a los clientes para su revisión inicial ahora demora 2 días, en comparación con el cronograma anterior de 1 a 2 semanas.

“Ahora podemos iterar mucho más rápido gracias a nuestro flujo de trabajo paralelizado y la capacidad de aprovechar múltiples GPU de alta gama a la vez”, explica Tim Chauncey, CTO de Outpost VFX. “La velocidad de iteración es fundamental para el trabajo de VFX y esta arquitectura proporciona capacidades más sólidas y escalables para el desarrollo futuro”.

Una mejora futura podría incluir aumentar la calidad de las imágenes. Outpost podría aumentar las resoluciones de imagen pasadas al modelo y utilizar generaciones más nuevas de instancias Amazon EC2 P5 con más VRAM para procesar estas imágenes y conjuntos de datos más grandes.

Conclusión

La arquitectura optimizada para AWS permite a Outpost VFX ofrecer capacidades mejoradas de reemplazo de rostros asistidas por IA a los clientes mientras mantiene los requisitos de seguridad y escalabilidad de la producción de efectos visuales de alta gama. La arquitectura de flujo de trabajo paralelizado, que incluye una migración de GPU NVIDIA de consumo local a GPU NVIDIA empresariales, proporciona una base para el futuro desarrollo y escalamiento de herramientas de IA en las operaciones globales del estudio Outpost VFX.

“Lo que más me emociona es que estos modelos ya no son experimentos de investigación; se están convirtiendo en una parte integral del proceso VFX moderno”, dice Dheeraj Bhadani, arquitecto principal de software en Outpost VFX. “La aceleración multi-GPU es la base sobre la que se construirán las herramientas creativas de próxima generación”.

Próximos pasos

Si busca acelerar sus propios flujos de trabajo de capacitación en IA, considere estos pasos:

Evalúe su utilización actual de GPU: identifique si las limitaciones de una sola GPU están limitando el rendimiento de su capacitación Explore arquitecturas de múltiples GPU: las instancias P5 de Amazon EC2 brindan computación escalable para cargas de trabajo de capacitación distribuidas Colabore con el Centro de innovación de IA generativa de AWS: el mismo equipo que ayudó a Outpost VFX a paralelizar su flujo de trabajo de capacitación

Puede lograr resultados similares implementando estrategias de capacitación distribuida adaptadas a su caso de uso específico y requisitos de infraestructura.

Expresiones de gratitud

Los autores desean agradecer a los siguientes colaboradores por su apoyo en este proyecto: Josh Chappatte, Laksh Puri y Ruchi Bhatia.

Sobre los autores

Alex Newton

Alex Newton

Alex es científico de datos en el Centro de innovación de IA generativa de AWS y ayuda a los clientes a resolver problemas complejos con IA generativa y aprendizaje automático. Le gusta aplicar soluciones de aprendizaje automático de última generación para resolver desafíos del mundo real.

Hanno Bever

Hanno Bever

Hanno es ingeniero senior de aprendizaje automático en el Centro de innovación de IA generativa de AWS con sede en Londres. En sus 6 años en Amazon, ha ayudado a clientes de todos los sectores a ejecutar cargas de trabajo de aprendizaje automático en AWS. Se especializa en escalar el entrenamiento de modelos distribuidos y optimizar la inferencia en instancias de AWS Trainium y GPU.

Esteban Smith

Esteban Smith

Stephen es arquitecto senior de soluciones en AWS, con sede en el Reino Unido. Trabaja con clientes empresariales para diseñar arquitecturas de nube modernas, escalables y rentables en una variedad de industrias. Con más de 7 años en AWS, a Stephen le apasiona ayudar a los clientes a adoptar soluciones modernas de datos e inteligencia artificial para resolver desafíos comerciales reales.

Tim Chauncey

Tim Chauncey

Tim ha sido director de tecnología en Outpost VFX, con sede en el Reino Unido, desde 2022. Su mandato ha supuesto una revolución en la forma en que el estudio ofrece películas y producciones episódicas de alta gama, incluida una migración exitosa de las soluciones tradicionales locales a una infraestructura de nube unificada que se ejecuta globalmente en AWS. Ahora dirige un equipo que integra herramientas de producción de aprendizaje automático de última generación y sistemas agentes en los flujos de trabajo de producción de Outpost.

Dheeraj Bhadani

Dheeraj Bhadani

Dheeraj es arquitecto de software líder en Outpost VFX con más de dos décadas de experiencia en la industria de VFX y animación. Arquitecto innovador y experimentado, ha desempeñado papeles clave en los avances tecnológicos reconocidos por los premios Academy Sci-Tech Awards. A Dheeraj le apasiona diseñar y construir sistemas altamente distribuidos, escalables y resistentes desde el inicio hasta la implementación. En los últimos años, se ha centrado en diseñar y desarrollar herramientas estratégicas de inteligencia artificial y aprendizaje automático de nivel de producción, integradas en aplicaciones de creación de contenido digital e implementadas como soluciones independientes.