Cuanto más pequeño es más inteligente. ¿Realmente necesitas el poder de top… | de Alexandre Allouin | diciembre de 2024

Las preocupaciones sobre los impactos ambientales de los modelos de lenguajes grandes (LLM) están aumentando. Aunque puede ser difícil encontrar información detallada sobre los costos reales de los LLM, intentemos recopilar algunos datos para comprender la escala.

Generado con ChatGPT-4o

Dado que no se dispone de datos completos sobre ChatGPT-4, podemos considerar Llama 3.1 405B como ejemplo. Este modelo de código abierto de Meta es posiblemente el LLM más “transparente” hasta la fecha. Basado en varios puntos de referenciaLlama 3.1 405B es comparable a ChatGPT-4, lo que proporciona una base razonable para comprender los LLM dentro de este rango.

Los requisitos de hardware para ejecutar la versión de 32 bits de este modelo oscilan entre 1.620 y 1.944 GB de memoria GPU, según la fuente (sustrato, AbrazosCara). Para una estimación conservadora, utilicemos la cifra inferior de 1.620 GB. Para poner esto en perspectiva, reconociendo que se trata de una analogía simplificada, 1.620 GB de memoria GPU equivalen aproximadamente a la memoria combinada de 100 MacBook Pros estándar (16 GB cada uno). Entonces, cuando le pides a uno de estos LLM una receta de tiramisú al estilo de Shakespeare, se necesita el poder de 100 MacBook Pros para darte una respuesta.

Estoy intentando traducir estas cifras en algo más tangible… aunque esto no incluye las costos de capacitaciónque se estima que involucran alrededor de 16,000 GPU a un costo aproximado de $60 millones de dólares (excluyendo costos de hardware), una inversión significativa de Meta, en un proceso que tomó alrededor de 80 días. En términos de consumo de electricidad, formación necesaria 11 GWh.

El consumo anual de electricidad por persona en un país como Francia es de aproximadamente 2.300 kWh. Así, 11 GWh corresponden al consumo eléctrico anual de unas 4.782 personas. Este consumo resultó en la liberación de aproximadamente 5.000 toneladas de gases de efecto invernadero equivalentes a CO₂ (basado en la media europea), aunque esta cifra puede fácilmente duplicarse dependiendo del país donde se entrenó el modelo.

En comparación, quemar 1 litro de diésel produce 2,54 kg de CO₂. Por lo tanto, entrenar un Llama 3.1 405B, en un país como Francia, equivale aproximadamente a las emisiones de la quema de alrededor de 2 millones de litros de diésel. Esto se traduce en aproximadamente 28 millones de kilómetros recorridos en automóvil. Creo que eso proporciona suficiente perspectiva… ¡y ni siquiera he mencionado el agua necesaria para enfriar las GPU!

Claramente, la IA todavía está en su infancia y podemos anticipar que con el tiempo surgirán soluciones más óptimas y sostenibles. Sin embargo, en esta intensa carrera, el panorama financiero de OpenAI destaca una disparidad significativa entre sus ingresos y gastos operativos, particularmente en relación con los costos de inferencia. En 2024, se proyecta que la compañía gastará aproximadamente 4 mil millones de dólares en potencia de procesamiento proporcionada por Microsoft para cargas de trabajo de inferencia, mientras que se estima que sus ingresos anuales oscilarán entre 3,5 mil millones y 4,5 mil millones de dólares. Esto significa que los costos de inferencia por sí solos casi igualan, o incluso superan, los ingresos totales de OpenAI (aprendizaje profundo.ai).

Todo esto sucede en un contexto en el que los expertos anuncian un estancamiento del rendimiento de los modelos de IA (paradigma de escalamiento). El aumento del tamaño del modelo y de las GPU está generando rendimientos significativamente menores en comparación con saltos anteriores, como los avances logrados por GPT-4 sobre GPT-3. “La búsqueda de AGI siempre ha sido poco realista, y el enfoque de ‘cuanto más grande, mejor’ para la IA estaba destinado a llegar a un límite con el tiempo, y creo que esto es lo que estamos viendo aquí”, dijo Sasha Luccioniinvestigador y líder de IA en la startup Hugging Face.

Pero no me malinterpretes: no voy a poner a prueba la IA porque ¡me encanta! Esta fase de investigación es absolutamente una etapa normal en el desarrollo de la IA. Sin embargo, creo que debemos ejercer el sentido común al usar la IA: no podemos usar una bazuca para matar un mosquito cada vez. La IA debe volverse sostenible, no sólo para proteger nuestro medio ambiente sino también para abordar las divisiones sociales. De hecho, el riesgo de dejar atrás al Sur Global en la carrera de la IA debido a los altos costos y demandas de recursos representaría un fracaso significativo en esta nueva revolución de la inteligencia.

Entonces, ¿realmente necesita todo el poder de ChatGPT para manejar las tareas más simples en su canal RAG? ¿Está buscando controlar sus costos operativos? ¿Quiere un control completo de extremo a extremo sobre su canalización? ¿Te preocupa que tus datos privados circulen en la web? ¿O tal vez simplemente eres consciente del impacto de la IA y estás comprometido con su uso consciente?

Los modelos de lenguaje pequeño (SLM) ofrecen una excelente alternativa que vale la pena explorar. Pueden ejecutarse en su infraestructura local y, cuando se combinan con la inteligencia humana, ofrecen un valor sustancial. Aunque no existe una definición universalmente aceptada de SLM (en 2019, por ejemplo, el GPT-2 con sus 1.500 millones de parámetros se consideraba un LLM, lo que ya no es así), me refiero a modelos como Mistral 7B, Llama-3.2. 3B, o Phi3.5, por nombrar algunos. Estos modelos pueden funcionar en una computadora “buena”, lo que genera una huella de carbono mucho menor y, al mismo tiempo, garantiza la confidencialidad de sus datos cuando se instalan en las instalaciones. Aunque son menos versátiles, cuando se usan sabiamente para tareas específicas, aún pueden proporcionar un valor significativo y, al mismo tiempo, ser más virtuosos desde el punto de vista ambiental.