Esta es una publicación invitada escrita por el equipo en Bytedance.
Byte es una compañía de tecnología que opera una gama de plataformas de contenido para informar, educar, entretener e inspirar a las personas en todos los idiomas, culturas y geografías. Los usuarios confían y disfrutan de nuestras plataformas de contenido debido a las experiencias ricas, intuitivas y seguras que brindan. Estas experiencias son posibles por nuestro aprendizaje automático (ML) Motor de backend, con modelos ML creados para la comprensión de video, la búsqueda, la recomendación, la publicidad y los efectos visuales novedosos.
En apoyo de su misión de “inspirar creatividad y enriquecer la vida”, hemos hecho que las personas se involucren, crean y consuman contenido. Las personas también pueden descubrir y realizar transacciones con un conjunto de más de una docena de productos y servicios, como Capcut, E-Shop, Lark, Pico y Legends Mobile: Bang Bang.
En Bytedance, colaboramos con Servicios web de Amazon (AWS) para implementar multimodal modelos de idiomas grandes (LLMS) para la comprensión de video usando AWS Inferentia2 en múltiples Regiones de AWS alrededor del mundo. Al usar algoritmos ML sofisticados, la plataforma escanea eficientemente miles de millones de videos cada día. Utilizamos este proceso para identificar y marcar el contenido que viole las pautas de la comunidad, permitiendo una mejor experiencia para todos los usuarios. Utilizando Instancias de Amazon EC2 Inf2 Para estas cargas de trabajo de comprensión de video, pudimos reducir el costo de inferencia a la mitad.
En esta publicación, discutimos el uso de LLM multimodales para la comprensión de video, la arquitectura de soluciones y las técnicas para la optimización del rendimiento.
Superar los obstáculos de comprensión de video con LLM multimodales
Los LLM multimodales permiten una mejor comprensión del mundo, permitiendo varias formas de contenido digital como entradas para el LLM, aumentando en gran medida el rango de aplicaciones útiles que ahora podemos construir. La necesidad de sistemas de IA capaces de procesar varios formularios de contenido se ha vuelto cada vez más evidente. Los LLM multimodales han aumentado para enfrentar este desafío tomando múltiples modalidades de datos, incluidos textos, imágenes, audio y video (consulte el siguiente diagrama), que permite una comprensión completa del contenido, imitando la percepción humana y la interacción con el mundo. Las capacidades mejoradas de estos modelos son evidentes en su rendimiento, lo que supera con creces las de los modelos tradicionales en tareas que van desde un asistente virtual sofisticado hasta la creación avanzada de contenido. Al expandir los límites de las capacidades de IA y allanar el camino para interacciones más naturales e intuitivas con la tecnología, estos modelos no solo mejoran las aplicaciones existentes, sino que abren puertas a posibilidades completamente nuevas en el ámbito de la IA y la experiencia del usuario.
En nuestras operaciones, la implementación de LLM multimodales para la comprensión de video representa un cambio significativo en el pensamiento sobre el análisis de contenido impulsado por la IA. Esta innovación aborda el desafío diario de procesar miles de millones de volúmenes de contenido de video, superando los límites de eficiencia de los modelos de IA tradicionales. Hemos desarrollado nuestra propia arquitectura multimodal LLM, diseñada para lograr el rendimiento de última generación en aplicaciones de imágenes únicas, imágenes múltiples y videos. A diferencia de los modelos ML tradicionales, este nuevo sistema generativo habilitado para IA integra múltiples flujos de entrada en un espacio de representación unificado. Los mecanismos de atención intermodal facilitan el intercambio de información entre modalidades, y las capas de fusión combinan representaciones de diferentes modalidades. El decodificador luego genera salida en función de la representación multimodal fusionada, lo que permite un análisis de contenido más matizado y consciente de contexto.
Descripción general de la solución
Hemos colaborado con AWS Desde la primera generación de chips de inferencia. Nuestro departamento de comprensión de video se ha comprometido a encontrar soluciones más rentables que brinden un mayor rendimiento para satisfacer mejor las necesidades comerciales cada vez mayores. Durante este período, descubrimos que AWS ha estado inventando y agregando continuamente características y capacidades a su Neurona de AWS Kit de desarrollo de software (SDK), el software que permite cargas de trabajo de alto rendimiento en los chips de inferentia. Los populares modelos MetaLama y Mistral fueron bien apoyados con un alto rendimiento en Inferentia2 poco después de su lanzamiento de código abierto. Por lo tanto, comenzamos a evaluar la solución basada en Inferentia2, ilustrada en el siguiente diagrama.
Tomamos la decisión estratégica de implementar un LLM de mediana tamaño ajustado en Inferentia2, para proporcionar una solución performadora y rentable capaz de procesar miles de millones de videos diariamente. El proceso fue un esfuerzo integral destinado a optimizar el tiempo de respuesta de extremo a extremo para nuestra carga de trabajo de comprensión de video. El equipo exploró una amplia gama de parámetros, incluidos tamaños paralelos de tensor, configuraciones de compilación, longitudes de secuencia y tamaños de lotes. Empleamos varias técnicas de paralelización, como la replicación múltiple y la replicación del modelo (para modelos que no son LLLM) en múltiples Neuroncores. A través de estas optimizaciones, que incluían pasos de secuencia de paralelización, reutilización de dispositivos y el uso de herramientas de perfiles automáticos y bencillos, logramos un impulso sustancial de rendimiento, manteniendo nuestra posición a la vanguardia de los estándares de rendimiento de la industria
Utilizamos el paralelismo tensor para distribuir y escalar el modelo de manera efectiva en múltiples aceleradores en una instancia de INF2. Utilizamos un lote estático, lo que mejoró la latencia y el rendimiento de nuestros modelos al asegurar que los datos se procesen en lotes uniformes de tamaño fijo durante la inferencia. El uso de filtrado de N-Grams repetido mejoró significativamente la calidad del texto generado automáticamente y un tiempo de inferencia reducido. La cuantificación de los pesos del modelo multimodal del formato FP16/BF16 a INT8 le permitió funcionar de manera más eficiente en Inferentia2 con menos uso de la memoria del dispositivo, sin comprometer la precisión. Utilizando estas técnicas y serialización del modelo, optimizamos el rendimiento en Inf2.48xLarge Instance maximizando el tamaño de lotes de manera que el modelo aún podría caber en un solo acelerador en una instancia para que pudiéramos implementar múltiples réplicas de modelo en la misma instancia. Esta estrategia de optimización integral nos ayudó a cumplir con nuestros requisitos de latencia al tiempo que proporciona un rendimiento óptimo y una reducción de costos. En particular, la solución basada en inferentia2 reduce el costo a la mitad en comparación con Nube de cómputo elástica de Amazon (Amazon EC2) instancias, destacando las importantes ventajas económicas del uso de chips inferentia2 para tareas de comprensión de video a gran escala.
El siguiente diagrama muestra cómo implementamos nuestro contenedor LLM en las instancias de Amazon EC2 Inf2 usando Neuron.
En resumen, nuestra colaboración con AWS ha revolucionado la comprensión de video, estableciendo nuevos estándares de la industria para la eficiencia y la precisión. La capacidad de la LLM multimodal para adaptarse a las demandas del mercado global y su rendimiento escalable en los chips Inferentia2 subrayan el profundo impacto de esta tecnología en la protección de la comunidad global de la plataforma.
Planes futuros
Mirando más adelante, el desarrollo de una LLM multimodal unificada representa un cambio importante en la tecnología de comprensión de video. Este ambicioso proyecto tiene como objetivo crear un tokenizador de contenido universal capaz de procesar todos los tipos de contenido y alinearlos dentro de un espacio semántico común. Después de que se toca, el contenido será analizado mediante modelos grandes avanzados, generando contenido apropiado comprensión de salidas independientemente del formato original (como se muestra en el siguiente diagrama). Este enfoque unificado puede optimizar el proceso de comprensión del contenido, mejorando potencialmente tanto la eficiencia como la consistencia en diversos tipos de contenido.
Para un aprendizaje adicional, consulte el documento La evolución de las arquitecturas de modelos multimodales.
La implementación de esta estrategia integral establece nuevos puntos de referencia en la tecnología de comprensión de video, logrando un equilibrio entre precisión, velocidad y sensibilidad cultural en un ecosistema digital cada vez más complejo. Este enfoque prospectivo no solo aborda los desafíos actuales en la comprensión de video, sino que también posiciona el sistema a la vanguardia del análisis y la gestión de contenido impulsado por la IA en el futuro previsible.
Al utilizar técnicas de IA de vanguardia y un enfoque holístico para la comprensión del contenido, este sistema de comprensión de contenido de próxima generación tiene como objetivo establecer nuevos estándares de la industria, proporcionando entornos en línea más seguros e inclusivos al tiempo que se adapta al panorama de comunicación digital en constante evolución. Al mismo tiempo, AWS está invirtiendo en chips de IA de próxima generación, como AWS Entrenium2que continuará empujando los límites de rendimiento mientras mantiene los costos bajo control. En Bytedance, planeamos probar esta nueva generación de chips AWS AI y adoptarlos de manera apropiada a medida que los modelos y las cargas de trabajo continúan evolucionando.
Conclusión
La colaboración entre Bytedance y AWS ha revolucionado la comprensión de video a través del despliegue de LLM multimodales en chips Inferentia2. Esta asociación ha arrojado resultados notables, la capacidad de procesar miles de millones de videos diariamente y reducciones de costos significativas y un mayor rendimiento sobre instancias de EC2 comparables.
A medida que el bytedance continúa innovando con proyectos como el modelo multimodal unificado, seguimos comprometidos a superar los límites del análisis de contenido impulsado por la IA. Nuestro objetivo es asegurarnos de que nuestras plataformas permanezcan seguras, inclusivas y espacios creativos para nuestra comunidad global, estableciendo nuevos estándares de la industria para una comprensión de video eficiente.
Para obtener más información sobre las instancias de Inf2, consulte Arquitectura de Amazon EC2 Inf2.
Sobre los autores
Wangpeng an, El ingeniero de algoritmos principales de Tiktok, se especializa en LLM multimodales para la comprensión de video, la publicidad y las recomendaciones. Ha liderado proyectos clave en aceleración de modelos, moderación de contenido y tuberías ADS LLM, mejorando los sistemas de aprendizaje automático en tiempo real de Tiktok.
Haotian Zhang es un plomo tecnológico en Tiktok, especializado en comprensión, búsqueda y recomendación de contenido. Recibió un ML PhD de la Universidad de Waterloo. En Tiktok, lleva a un grupo de ingenieros a mejorar la eficiencia, la robustez y la efectividad de la capacitación e inferencia para LLM y LLM multimodales, especialmente para grandes sistemas ML distribuidos.
Xiaojie Ding es ingeniero senior en Tiktok, centrado en el desarrollo del sistema de moderación de contenido, la optimización del modelo de recursos y la implementación, y la construcción de estabilidad de ingeniería de algoritmos. En su tiempo libre, le gusta jugar juegos para un jugador.
Nachuan yang es ingeniero senior en Tiktok, centrándose en la seguridad y la moderación de contenido. Se ha dedicado sucesivamente a la construcción de sistemas de moderación, aplicaciones modelo y optimización de implementación y rendimiento.
Kairong Sun es un SRE senior en el equipo de AML en Bytedance. Su papel se centra en mantener la operación perfecta y la asignación eficiente de recursos dentro del clúster, especializándose en mantenimiento de la máquina de clúster y optimización de recursos.
Los autores desean agradecer a otros miembros del equipo de Bytedance y AWS por sus contribuciones: Xi Dai, Kaili Zhao, Zhixin Zhang, Jin Ye y Yann Xia de Bytedance; Jia Dong, Bingyang Huang, Kamran Khan, Shruti Koparkar y Diwakar Bansal de AWS.