Aprendizaje profundo a escala: capacitación en modelos paralelos | de Caroline Arnold

Aprendizaje profundo a escala: capacitación en modelos paralelos | de Caroline Arnold | abril de 2024

Concepto y ejemplo de Pytorch Lightning

Ocho bombillas de neón paralelas en colores del arco iris sobre un fondo oscuro. — Imagen creada por el autor usando Midjourney.

El entrenamiento paralelo en una gran cantidad de GPU es lo último en aprendizaje profundo. El algoritmo de generación de imágenes de código abierto Difusión estable fue entrenado en un grupo de 256 GPU. meta Superclúster de investigación de IA Contiene más de 24.000 GPU NVIDIA H100 que se utilizan para entrenar modelos como Llama 3.

Al utilizar múltiples GPU, los expertos en aprendizaje automático reducen el tiempo de pared de sus carreras de entrenamiento. Entrenamiento de difusión estable tomó 150.000 horas de GPU, o más de 17 años. El entrenamiento paralelo redujo eso a 25 días.

Hay dos tipos de aprendizaje profundo paralelo:

Paralelismo de datosdonde un gran conjunto de datos se distribuye en varias GPU.
Paralelismo modelodonde un modelo de aprendizaje profundo que es demasiado grande para caber en una sola GPU se distribuye en varios dispositivos.

Nos centraremos aquí en el paralelismo de datos, como paralelismo de modelos. sólo se vuelve relevante para modelos muy grandes más allá de los parámetros de 500M.

Más allá de reducir el tiempo de pared, existe un argumento económico para la capacitación paralela: los proveedores de computación en la nube como AWS ofrece máquinas individuales con hasta 16 GPU. La capacitación paralela puede aprovechar todas las GPU disponibles y usted obtiene más valor por su dinero.

Aprendizaje profundo a escala: capacitación en modelos paralelos | de Caroline Arnold | abril de 2024

ByEquipo de 7 minutos

Concepto y ejemplo de Pytorch Lightning

By Equipo de 7 minutos

Related Post

Conozca WebBrain: un agente de navegador de IA local y de código abierto que lee páginas y automatiza tareas en Chrome y Firefox

Interfaze lanza diffusion-gemma-asr-small, un modelo ASR de difusión de código abierto que transcribe seis idiomas a través del decodificador de eliminación de ruido paralelo de DiffusionGemma

Tutorial de RAG-Anything: cree una canalización de recuperación multimodal para texto, tablas, ecuaciones e imágenes en Colab

You missed

Los índices del euro alcanzan máximos históricos a medida que el empleo en EE.UU. impacta los precios

Sánchez saluda plan migratorio mientras solicitudes superan el millón – The Leader

Los arqueólogos descubren nueva historia de la Batalla de Bunker Hill, la primera gran batalla de la Revolución Americana

El premio Nobel Omar Yaghi lanza una red científica mundial