El entrenamiento paralelo en una gran cantidad de GPU es lo último en aprendizaje profundo. El algoritmo de generación de imágenes de código abierto Difusión estable fue entrenado en un grupo de 256 GPU. meta Superclúster de investigación de IA Contiene más de 24.000 GPU NVIDIA H100 que se utilizan para entrenar modelos como Llama 3.
Al utilizar múltiples GPU, los expertos en aprendizaje automático reducen el tiempo de pared de sus carreras de entrenamiento. Entrenamiento de difusión estable tomó 150.000 horas de GPU, o más de 17 años. El entrenamiento paralelo redujo eso a 25 días.
Hay dos tipos de aprendizaje profundo paralelo:
- Paralelismo de datosdonde un gran conjunto de datos se distribuye en varias GPU.
- Paralelismo modelodonde un modelo de aprendizaje profundo que es demasiado grande para caber en una sola GPU se distribuye en varios dispositivos.
Nos centraremos aquí en el paralelismo de datos, como paralelismo de modelos. sólo se vuelve relevante para modelos muy grandes más allá de los parámetros de 500M.
Más allá de reducir el tiempo de pared, existe un argumento económico para la capacitación paralela: los proveedores de computación en la nube como AWS ofrece máquinas individuales con hasta 16 GPU. La capacitación paralela puede aprovechar todas las GPU disponibles y usted obtiene más valor por su dinero.