0y50myow60csw0ly1.png

IA GENERATIVA

Aprendizajes del ajuste fino de un modelo de lenguaje grande en una única GPU de consumo

Imagen del autor (Midjourney).

Cuando pensamos en modelos de lenguaje grande o cualquier otro modelo generativo, el primer hardware que nos viene a la mente es la GPU. Sin las GPU, muchos avances en IA generativa, aprendizaje automático, aprendizaje profundo y ciencia de datos habrían sido imposibles. Si hace 15 años los jugadores se entusiasmaban con las últimas tecnologías GPU, hoy los científicos de datos y los ingenieros de aprendizaje automático se unen a ellos y siguen las novedades también en este campo. Aunque normalmente los jugadores y los usuarios de ML buscan dos tipos diferentes de GPU y tarjetas gráficas.

Los usuarios de juegos suelen utilizar tarjetas gráficas de consumo (como las GPU de la serie NVIDIA GeForce RTX), mientras que los desarrolladores de ML e IA suelen seguir las noticias sobre las GPU de centros de datos y computación en la nube (como V100, A100 o H100). Las tarjetas gráficas para juegos suelen tener mucha menos memoria GPU (como máximo 24 GB a partir de enero de 2024) en comparación con las GPU de centros de datos (normalmente en el rango de 40 GB a 80 GB). Además, su precio es otra diferencia significativa. Si bien la mayoría de las tarjetas gráficas de consumo pueden costar hasta $ 3000, la mayoría de las tarjetas gráficas de centros de datos comienzan desde ese precio y pueden costar decenas de miles de dólares fácilmente.

Dado que muchas personas, incluyéndome a mí, pueden tener una tarjeta gráfica de consumo para juegos o uso diario, es posible que les interese ver si pueden usar las mismas tarjetas gráficas para entrenamiento, ajuste o inferencia de modelos LLM. En 2020, escribí un artículo completo sobre si podemos utilizar tarjetas gráficas de consumo para proyectos de ciencia de datos (enlace al artículo). En ese momento, los modelos eran en su mayoría modelos pequeños de ML o Deep Learning e incluso una tarjeta gráfica con 6 GB de memoria podía manejar muchos proyectos de capacitación. Pero en este artículo voy a utilizar dicha tarjeta gráfica para modelos de lenguaje grandes con miles de millones de parámetros.

Para este artículo, utilicé mi tarjeta Geoforce 3090 RTX que tiene 24 GB de memoria GPU. Como referencia, las tarjetas gráficas de centros de datos como A100 y H100 tienen 40 GB y 80 GB de memoria respectivamente. Además, una instancia típica de AWS EC2 p4d.24xlarge tiene 8 GPU (V100) con un total de 320 GB de memoria GPU. Como puedes ver la diferencia entre un simple consumidor…