Energía masiva para GPU masivas que potencian la IA | por Geo Zhang

Desde la perspectiva del usuario, algunos entusiastas de los videojuegos han construido sus propias PC equipadas con GPU de alto rendimiento como la NVIDIA GeForce RTX 4090. Curiosamente, esta GPU también es capaz de manejar tareas de aprendizaje profundo a pequeña escala. El RTX 4090 requiere una fuente de alimentación de 450 W, con una fuente de alimentación total recomendada de 850 W (en la mayoría de los casos no la necesita y no funcionará a plena carga). Si su tarea se ejecuta de forma continua durante una semana, eso se traduce en 0,85 kW × 24 horas × 7 días = 142,8 kWh por semana. En California, PG&E cobra hasta 50 centavos por kWh a los clientes residenciales, lo que significa que gastaría alrededor de $70 por semana en electricidad. Además, necesitarás una CPU y otros componentes que funcionen junto con tu GPU, lo que aumentará aún más el consumo de electricidad. Esto significa que el coste total de la electricidad puede ser incluso mayor.

Ahora, su negocio de IA se acelerará. Según el fabricante, una GPU H100 Tensor Core tiene una potencia máxima de diseño térmico (TDP) de alrededor de 700 vatios, dependiendo de la versión específica. Esta es la energía necesaria para enfriar la GPU bajo carga de trabajo completa. Una unidad de fuente de alimentación confiable para esta herramienta de aprendizaje profundo de alto rendimiento suele rondar los 1600 W. Si utiliza la plataforma NVIDIA DGX para sus tareas de aprendizaje profundo, un único sistema DGX H100, equipado con 8 GPU H100, consume aproximadamente 10,2 kW. Para un rendimiento aún mayor, un NVIDIA DGX SuperPOD puede incluir entre 24 y 128 nodos NVIDIA DGX. Con 64 nodos, el sistema podría consumir de forma conservadora unos 652,8 kW. Si bien su startup podría aspirar a comprar este equipo valorado en millones de dólares, los costos tanto del clúster como de las instalaciones necesarias serían sustanciales. En la mayoría de los casos, tiene más sentido alquilar clústeres de GPU a proveedores de computación en la nube. Centrándonos en los costos de energía, los usuarios comerciales e industriales generalmente se benefician de tarifas eléctricas más bajas. Si su costo promedio es de alrededor de 20 centavos por kWh, operar 64 nodos DGX a 652,8 kW durante las 24 horas del día, los 7 días de la semana daría como resultado 109,7 MWh por semana. Esto podría costarle aproximadamente $21,934 por semana.

Según estimaciones aproximadas, una familia típica en California gastaría alrededor de 150 kWh por semana en electricidad. Curiosamente, este es aproximadamente el mismo costo en el que incurriría si ejecutara una tarea de entrenamiento de modelos en casa usando una GPU de alto rendimiento como la RTX 4090.

Comparación de costos de energía

En esta tabla podemos observar que operar un SuperPOD con 64 nodos podría consumir tanta energía en una semana como una comunidad pequeña.

Entrenamiento de modelos de IA

Ahora, profundicemos en algunos números relacionados con los modelos de IA modernos. OpenAI nunca ha revelado la cantidad exacta de GPU utilizadas para entrenar ChatGPT, pero una estimación aproximada sugiere que podría involucrar miles de GPU funcionando continuamente durante varias semanas o meses, dependiendo de la fecha de lanzamiento de cada modelo ChatGPT. El consumo de energía para tal tarea fácilmente estaría en la escala de megavatios, lo que generaría costos en la escala de miles de MWh.

Recientemente, Meta lanzó LLaMA 3.1descrito como su “modelo más capaz hasta la fecha”. Según Meta, este es su modelo más grande hasta el momento, entrenado en más de 16.000 GPU H100: el primer modelo LLaMA entrenado a esta escala.

Analicemos los números: LLaMA 2 se lanzó en julio de 2023, por lo que es razonable suponer que LLaMA 3 tardó al menos un año en prepararse. Si bien es poco probable que todas las GPU funcionen las 24 horas del día, los 7 días de la semana, podemos estimar el consumo de energía con una tasa de utilización del 50 %:

1,6 kW × 16 000 GPU × 24 horas/día × 365 días/año × 50 % ≈ 112 128 MWh

A un costo estimado de $0,20 por kWh, esto se traduce en aproximadamente 22,4 millones de dólares en los costos de energía. Esta cifra solo representa las GPU, excluyendo el consumo de energía adicional relacionado con el almacenamiento de datos, las redes y otras infraestructuras.

La formación de modelos de lenguajes grandes (LLM) modernos requiere un consumo de energía a escala de megavatios y representa una inversión millonaria. Esta es la razón por la que el desarrollo moderno de la IA a menudo excluye a los actores más pequeños.

Operar modelos de IA

La ejecución de modelos de IA también genera importantes costos de energía, ya que cada consulta y respuesta requiere potencia computacional. Aunque el costo de energía por interacción es pequeño en comparación con el entrenamiento del modelo, el impacto acumulativo puede ser sustancial, especialmente si su negocio de IA logra un éxito a gran escala con miles de millones de usuarios interactuando con su LLM avanzado diariamente. Muchos artículos interesantes analizan este tema, incluido comparaciones de costos de energía entre empresas que operan ChatBots. La conclusión es que, dado que cada consulta podría costar entre 0,002 y 0,004 kWh, actualmente las empresas populares gastarían entre cientos y miles de MWh al año. Y este número sigue aumentando.

Foto por Solen Feyissa en desempaquetar

Imagine por un momento que mil millones de personas utilizan un ChatBot con frecuencia, con un promedio de alrededor de 100 consultas por día. El costo de energía para este uso se puede estimar de la siguiente manera:

0,002 kWh × 100 consultas/día × 1e9 personas × 365 días/año ≈ 7,3e7 MWh/año

Esto requeriría un suministro de energía de 8000 MW y podría resultar en un costo de energía de aproximadamente $14,6 mil millones al año, suponiendo una tarifa de electricidad de $0,20 por kWh.

Foto por Mateo Henry en desempaquetar

La central eléctrica más grande de EE.UU. es la Presa Grand Coulee en el estado de Washington, con una capacidad de 6.809 MW. El parque solar más grande de EE. UU. es estrella solar en California, que tiene una capacidad de 579 MW. En este contexto, ninguna central eléctrica es capaz de suministrar toda la electricidad necesaria para un servicio de IA a gran escala. Esto se hace evidente al considerar las estadísticas anuales de generación de electricidad proporcionadas por EIA (Administración de Información Energética),

Fuente: Administración de Información Energética de EE. UU., Perspectiva Energética Anual 2021 (OEE2021)

Los 73 mil millones de kWh calculados anteriormente representarían aproximadamente el 1,8% de la electricidad total generada anualmente en Estados Unidos. Sin embargo, es razonable creer que esta cifra podría ser mucho mayor. Según algunos informes de los medios, al considerar todo el consumo de energía relacionado con la IA y el procesamiento de datos, el impacto podría rondar el 4% de la generación eléctrica total de Estados Unidos.

Sin embargo, este es el uso actual de energía.

Hoy en día, los chatbots generan principalmente respuestas basadas en texto, pero son cada vez más capaces de producir imágenes bidimensionales, vídeos “tridimensionales” y otras formas de medios. La próxima generación de IA irá mucho más allá de los simples chatbots, que pueden proporcionar imágenes de alta resolución para pantallas esféricas (por ejemplo, para Esfera de Las Vegas), modelado 3D y robots interactivos capaces de realizar tareas complejas y ejecutar logística profunda. Como resultado, se espera que las demandas de energía tanto para el entrenamiento como para el despliegue del modelo aumenten dramáticamente, superando con creces los niveles actuales. Sigue siendo una cuestión abierta si nuestra infraestructura energética existente puede soportar tales avances.

En el frente de la sostenibilidad, las emisiones de carbono de las industrias con altas demandas de energía son significativas. Un enfoque para mitigar este impacto implica el uso de fuentes de energía renovables para alimentar instalaciones que consumen mucha energía, como centros de datos y centros computacionales. Un ejemplo notable es la colaboración entre Fervo Energía y Googledonde se utiliza energía geotérmica para suministrar energía a un centro de datos. Sin embargo, la escala de estas iniciativas sigue siendo relativamente pequeña en comparación con las necesidades energéticas generales previstas en la próxima era de la IA. Todavía queda mucho trabajo por hacer para abordar los desafíos de la sostenibilidad en este contexto.

Foto por ben blanco en desempaquetar

Corrija los números si los considera irrazonables.