Esta publicación fue coescrita con Tim Chauncey y Dheeraj Bhadani de Outpost VFX.
El entrenamiento de modelos de IA para efectos visuales (VFX) puede llevar semanas, lo que crea cuellos de botella en los plazos de producción. Para Outpost VFX, que opera estudios en el Reino Unido, Canadá e India que ofrecen películas y contenido episódico de alta gama, cada día de retraso afecta los resultados de los clientes y los cronogramas de los proyectos.
En esta publicación, exploramos cómo Outpost VFX logró velocidades de entrenamiento 8 veces más rápidas utilizando la infraestructura de AWS para transformar su flujo de trabajo de reemplazo de rostros, la arquitectura técnica que implementaron para superar las limitaciones de una sola GPU y los resultados medibles logrados a través del entrenamiento de múltiples GPU de AWS.
El desafío: cuellos de botella de una sola GPU en el entrenamiento de IA
Los flujos de trabajo tradicionales de reemplazo de rostros en la producción de efectos visuales requieren más de cinco días de composición o apoyo especializado en belleza y rejuvenecimiento para crear versiones iniciales para la aprobación del director. Si bien son efectivos, estos métodos crean cuellos de botella en las primeras etapas del proceso de aprobación iterativo, la fase más crítica para los cronogramas de producción. Para los profesionales de VFX, una formación lenta en IA se traduce directamente en plazos incumplidos, aumento de costes y retrasos en los ciclos de retroalimentación de los clientes.
Outpost VFX había desarrollado un modelo de inteligencia artificial capaz de entrenarse en imágenes del set para acelerar los procesos de reemplazo de rostros. Sin embargo, la eficiencia se vio limitada por las limitaciones informáticas de una sola GPU. La herramienta de intercambio de caras existente solo podía utilizar una GPU a la vez, lo que limitaba el acceso a la memoria de acceso aleatorio de vídeo (VRAM) y la capacidad de procesamiento para las operaciones de entrenamiento de modelos. Esto impidió que el equipo aprovechara todo el potencial de su enfoque asistido por IA.
Consideraciones de diseño
Outpost VFX identificó tres requisitos técnicos críticos para optimizar su flujo de trabajo de IA:
Escalabilidad informática: el equipo necesitaba paralelizar el entrenamiento del modelo de reemplazo facial en múltiples GPU para lograr mejoras significativas en la eficiencia. El entrenamiento con una sola GPU estaba generando retrasos de una semana en los ciclos de iteración del modelo. Seguridad de la infraestructura: como cliente de AWS desde 2022 con una pila de tecnología totalmente virtualizada, Outpost VFX necesitaba la solución para cumplir con sus exigentes requisitos de seguridad para el procesamiento de datos de producción altamente confidenciales. Optimización del rendimiento: más allá de las mejoras de velocidad bruta, la arquitectura necesitaba admitir conjuntos de datos más grandes e imágenes de mayor resolución para mejorar la calidad de salida.
Para abordar estos requisitos, Outpost VFX colaboró con los desarrolladores del Centro de innovación de IA generativa de AWS, que trabajaron como una extensión de su departamento de tecnología para modernizar sus algoritmos de aprendizaje de IA. El Centro de innovación de IA generativa de AWS es un equipo de estrategas, científicos de datos, ingenieros y arquitectos de soluciones que trabaja paso a paso con los clientes para crear soluciones personalizadas que aprovechen el poder de la IA generativa. Obtenga más información sobre cómo interactuar con el equipo en la página web del Centro de innovación de IA generativa.
Implementación de arquitectura
La solución implicó adaptar el código base del modelo de intercambio de caras existente de Outpost VFX para admitir el entrenamiento de GPU distribuido en múltiples GPU. La implementación utilizó instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2) con múltiples GPU de AWS dentro de un entorno de nube seguro y segregado que se alineaba con los requisitos de infraestructura existentes de Outpost VFX.
Originalmente, Outpost VFX entrenó sus modelos de intercambio de caras en estaciones de trabajo aceleradas por GPU. Esto implicó recopilar pequeños conjuntos de datos de actores y sus dobles y ajustar un modelo base en GPU RTX 3090. Si bien este método funcionó, el equipo de Outpost descubrió que el tiempo de entrenamiento era lento, alrededor de 1 a 2 semanas por ajuste. La ampliación habría sido difícil debido a la sobrecarga de gestión de esas estaciones de trabajo en la nube. En este punto, analizaron la capacitación en instancias P5.
Las instancias P5 cuentan con GPU NVIDIA H100, diseñadas específicamente para cargas de trabajo de capacitación distribuidas. A diferencia de las instancias de la serie G que utilizan comunicación PCIe entre GPU, las instancias P5 proporcionan interconexiones NV Link que ofrecen un ancho de banda significativamente mayor para la sincronización de gradientes, lo cual es un factor crítico cuando se entrena en múltiples GPU. Los 14.592 núcleos CUDA del H100 y los 80 GB de memoria HBM3 de alto ancho de banda también representaron una mejora sustancial con respecto a su configuración local RTX 3090.
Outpost VFX trabajó con el Centro de innovación de IA generativa para ayudarlos a ejecutar su modelo en las instancias P5. Durante un período de asesoramiento de seis semanas, los científicos de AWS convirtieron el código del modelo para utilizar la estrategia de capacitación PyTorch Distributed Data Parallel (DDP). DDP es una técnica de paralelización que copia los pesos del modelo en cada GPU, lo que permite que el sistema procese más imágenes en cada lote de entrenamiento. Este enfoque aumenta la cantidad de imágenes que se pueden incluir en cada lote, lo que acelera directamente el proceso de capacitación.
La implementación técnica incluyó la paralelización de múltiples GPU del entrenamiento del modelo de reemplazo facial, una arquitectura de seguridad mejorada para datos de producción confidenciales y la integración con la pila de tecnología existente basada en AWS de Outpost VFX. A medida que Outpost VFX continúa evolucionando su canal de IA, el equipo ve potencial en servicios como Amazon SageMaker AI con capacitación administrada, control de versiones de modelos e inferencia alojada para optimizar aún más la forma en que desarrollan e implementan modelos en sus estudios globales.
Medición de mejoras en el desempeño
Para probar la mejora de la velocidad del entrenamiento multi-GPU, Outpost VFX recopiló un conjunto de datos de imágenes para el entrenamiento, fijó los hiperparámetros del modelo y midió el tiempo necesario para que el entrenamiento alcanzara un umbral de pérdida específico. Establecieron la línea de base como una GPU en una instancia G5 en comparación con la ejecución de los modelos en las instancias P5.
El esfuerzo de desarrollo combinado entre Outpost VFX y AWS logró una mejora de hasta 8 veces en las velocidades de aprendizaje del modelo de reemplazo facial. Este aumento de rendimiento se tradujo directamente en ciclos de iteración más rápidos, lo que permitió procesos de aprobación del director más rápidos para las primeras versiones. La capacidad de entrenar modelos con imágenes de mayor resolución y conjuntos de datos más grandes mejoró la calidad de los resultados. Lo más significativo es que la entrega de v001 a los clientes para su revisión inicial ahora demora 2 días, en comparación con el cronograma anterior de 1 a 2 semanas.
“Ahora podemos iterar mucho más rápido gracias a nuestro flujo de trabajo paralelizado y la capacidad de aprovechar múltiples GPU de alta gama a la vez”, explica Tim Chauncey, CTO de Outpost VFX. “La velocidad de iteración es fundamental para el trabajo de VFX y esta arquitectura proporciona capacidades más sólidas y escalables para el desarrollo futuro”.
Una mejora futura podría incluir aumentar la calidad de las imágenes. Outpost podría aumentar las resoluciones de imagen pasadas al modelo y utilizar generaciones más nuevas de instancias Amazon EC2 P5 con más VRAM para procesar estas imágenes y conjuntos de datos más grandes.
Conclusión
La arquitectura optimizada para AWS permite a Outpost VFX ofrecer capacidades mejoradas de reemplazo de rostros asistidas por IA a los clientes mientras mantiene los requisitos de seguridad y escalabilidad de la producción de efectos visuales de alta gama. La arquitectura de flujo de trabajo paralelizado, que incluye una migración de GPU NVIDIA de consumo local a GPU NVIDIA empresariales, proporciona una base para el futuro desarrollo y escalamiento de herramientas de IA en las operaciones globales del estudio Outpost VFX.
“Lo que más me emociona es que estos modelos ya no son experimentos de investigación; se están convirtiendo en una parte integral del proceso VFX moderno”, dice Dheeraj Bhadani, arquitecto principal de software en Outpost VFX. “La aceleración multi-GPU es la base sobre la que se construirán las herramientas creativas de próxima generación”.
Próximos pasos
Si busca acelerar sus propios flujos de trabajo de capacitación en IA, considere estos pasos:
Evalúe su utilización actual de GPU: identifique si las limitaciones de una sola GPU están limitando el rendimiento de su capacitación Explore arquitecturas de múltiples GPU: las instancias P5 de Amazon EC2 brindan computación escalable para cargas de trabajo de capacitación distribuidas Colabore con el Centro de innovación de IA generativa de AWS: el mismo equipo que ayudó a Outpost VFX a paralelizar su flujo de trabajo de capacitación
Puede lograr resultados similares implementando estrategias de capacitación distribuida adaptadas a su caso de uso específico y requisitos de infraestructura.
Expresiones de gratitud
Los autores desean agradecer a los siguientes colaboradores por su apoyo en este proyecto: Josh Chappatte, Laksh Puri y Ruchi Bhatia.