¿La revelación de Google del progreso de impacto de Gemini o el lavado verde?

Según un documento técnico de Google, acompañado de una publicación de blog en su sitio web, el consumo de energía estimado de “el mensaje de texto mediano de aplicaciones Gemini” es de 0.24 vatios (WH). El consumo de agua es de 0.26 mililitros, que son aproximadamente cinco gotas de agua según la publicación del blog, y la huella de carbono es de 0.03 GCO2E. En particular, la estimación no incluye indicaciones de imagen o video.

¿Cuál es la magnitud de 0.24 WH? Si le da 30 indicaciones medianas por día durante todo el año, habrá usado 2.62 kWh de electricidad. Eso es lo mismo que ejecutar su lavavajillas 3-5 veces dependiendo de su etiqueta de energía.

La divulgación de Google del impacto ambiental de sus modelos Géminis ha dado lugar a una nueva ronda de debate sobre el impacto ambiental de la IA y cómo medirla.

En la superficie, estos números suenan tranquilizadoramente pequeños, pero cuanto más cerca te ves, más complicada se vuelve la historia. Vamos a sumergirnos.

Alcance de medición

Echemos un vistazo a lo que se incluye y lo que se omite en las estimaciones de Google de la solicitud de texto mediana de Géminis.

Inclusiones

El alcance de su evaluación es “fuentes de energía material bajo el control operativo de Google: la capacidad de implementar cambios en el comportamiento. Específicamente, descomponen LLM que sirven al consumo de energía como:

AI Acelerators Energy (TPUS: el colgante de Google a la GPU), incluida la red entre aceleradores en la misma computadora AI. Estas son mediciones directas durante la entrega.
La CPU activa y la energía DRAM: aunque los aceleradores de IA, también conocidos como GPU o TPU, reciben la mayor atención en la literatura, la CPU y la memoria también utiliza cantidades notables de energía.
Consumo de energía de máquinas inactivas que esperan procesar el tráfico de picos
Energía aérea, es decir, la infraestructura que respalda los centros de datos, incluidos los sistemas de enfriamiento, la conversión de energía y otras sobrecargas dentro del centro de datos. Esto se tiene en cuenta a través de la métrica de Pue, un factor por el que se multiplica el consumo de energía, y asumen un PUE de 1.09.
Google no solo midió el consumo de energía del LLM que genera la respuesta que los usuarios ven, sino que también la energía de los modelos de soporte como la puntuación, la clasificación, la clasificación, etc.

Omisión

Esto es lo que no está incluido:

Todas las redes antes de un aviso llegan a la computadora AI, es decir, las redes externas y las redes internas que enrutan consultas a la computadora AI.
Dispositivos de usuario final, es decir, nuestros teléfonos, computadoras portátiles, etc.
Capacitación modelo y almacenamiento de datos

Progreso o lavado verde?

Arriba, describí los hechos objetivos del papel. Ahora, veamos diferentes perspectivas sobre las figuras.

Progreso

Podemos tomar la publicación de Google porque:

El documento de Google se destaca debido a los detalles detrás de él. Incluyeron CPU y DRAM, que desafortunadamente es poco común. Meta, por ejemplo, solo mide la energía de GPU.
Google usó la mediana del consumo de energía en lugar del promedio. La mediana no está influenciada por valores atípicos como indicaciones muy largas o muy cortas y, por lo tanto, posiblemente nos dice lo que consume un aviso “típico”.
Algo es mejor que nada. Es un gran paso adelante desde la parte posterior de las mediciones de sobre (culpable como cargado) y tal vez están allanando el camino para estudios más detallados en el futuro.
Se incluyen los costos de fabricación de hardware y los costos de fin de vida

Lavado verde

Podemos criticar el documento de Google porque:

Carece de cifras acumulativas, idealmente nos gustaría saber el impacto total de sus servicios LLM y qué porcentaje de la huella total de Google explican.
Los autores no definen cómo se ve el aviso medio, por ejemplo, ¿cuánto tiempo es y cuánto tiempo es la respuesta que provoca?
Usaron el consumo medio de energía que el promedio. Sí, leíste bien. Esto puede verse como positivo o negativo. La mediana “oculta” el efecto de los casos de uso de alta complejidad, por ejemplo, tareas de razonamiento muy complejas o resúmenes de textos muy largos.
Las emisiones de carbono se informan utilizando el enfoque basado en el mercado (dependiendo de los certificados de adquisición de energía) y no los datos de la cuadrícula basados en la ubicación que muestran las emisiones reales de carbono de la energía que utilizaron. Si hubieran utilizado el enfoque basado en la ubicación, la huella de carbono habría sido de 0.09 GCO2E por aviso mediano y no 0.03 GCO2E.
Los costos de capacitación de LLM no están incluidos. El debate sobre el papel de los costos de capacitación en los costos totales está en curso. ¿Juega una parte pequeña o grande del número total? No tenemos la imagen completa (todavía). Pero, Sabemos Que para algunos modelos, se necesitan cientos de millones de indicaciones para alcanzar la paridad de costos, lo que sugiere que la capacitación del modelo puede ser un factor significativo en los costos totales de energía.
No revelaron sus datos, por lo que no podemos verificar dos resultados
La metodología no está del todo clara. Por ejemplo, no está claro cómo llegaron al alcance 1 y 3 emisiones de 0.010 GCO2E por aviso mediano.
La estimación del uso del agua de Google solo considera el consumo de agua en el sitio, y no el consumo total de agua (es decir, excluyendo fuentes de consumo de agua como la generación de electricidad) que es contrario a la práctica estándar.
Excluyen las emisiones de las redes externas, sin embargo, un Evaluación del ciclo de vida del modelo 2 grande de Mistral AI muestra que el tráfico de la red de tokens representa una parte minúscula de los costos ambientales totales de la inferencia de LLM (<1 %). También lo hace el equipo del usuario final (3 %)

Géminis vs Operai Chatgpt vs Mistral

La publicación de Google sigue a las divulgaciones, aunque de diversos grados de detalle, por Mistral AI y OpenAI.

Sam Altman, CEO de Operai, escribió recientemente en un blog Eso: “La consulta promedio usa aproximadamente 0.34 vatios horas, sobre lo que un horno usaría en poco más de un segundo, o una bombilla de alta eficiencia usaría en un par de minutos. También usa aproximadamente 0.000085 galones de agua; aproximadamente un decimoctavo de una teaspoon”. Puedes leer mi análisis en profundidad de esa afirmación aquí.

Es tentador comparar el 0.24 WH de Gemini por aviso con el 0.34 WH de Chatgpt, pero los números no son directamente comparables. El número de Géminis es el medianamientras que el chatgpt es el promedio (media aritmética, me aventuraría). Incluso si ambos fueran medianas o medios, no podríamos concluir necesariamente que Google sea más eficiente energéticamente que OpenAI, porque no sabemos nada sobre el aviso que se mide. Podría ser que los usuarios de OpenAI hagan preguntas que requieren más razonamiento o simplemente hagan preguntas más largas o obtengan respuestas más largas.

Según la evaluación del ciclo de vida de Mistral AI, una respuesta de 400 token de su modelo 2 grande emite 1.14 GCO₂E y usa 45 ml de agua.

Conclusión

Entonces, ¿es el lavado verde de la divulgación de Google o el progreso genuino? Espero haberte equipado para que se decidan sobre esa pregunta. En mi opinión, es un progreso, porque amplía el alcance de lo que se mide y nos da datos de infraestructura real. Pero también se queda corto porque las omisiones son tan importantes como las inclusiones. Otra cosa a tener en cuenta es que estos números a menudo suenan digeribles, pero no nos dicen mucho sobre el impacto sistémico. Personalmente, soy optimista de que actualmente estamos presenciando una ola de divulgaciones de impacto de AI de Big Tech, y me sorprendería si Anthrope no es la próxima.

¡Eso es todo! Espero que hayas disfrutado la historia. ¡Déjame saber lo que piensas!

Sígueme para obtener más información sobre IA y sostenibilidad y no dude en seguirme LinkedIn.

¿La revelación de Google del progreso de impacto de Gemini o el lavado verde?

ByEquipo de 7 minutos

Alcance de medición

Inclusiones

Omisión

Progreso o lavado verde?

Progreso

Lavado verde

Géminis vs Operai Chatgpt vs Mistral

Conclusión

By Equipo de 7 minutos

Related Post

NVIDIA lanza Cosmos 3: un modelo básico de mezcla de transformadores de dos torres que unifica el razonamiento físico, la generación mundial y la generación de acción

Nous Research lanza Hermes Desktop: una interfaz nativa multiplataforma para Hermes Agent v0.15.2 con salida de herramienta de transmisión

Investigadores del MIT enseñan modelos de IA a interpretar gráficos | Noticias del MIT

You missed

Es posible que Edison no haya sido el primero en grabar la voz humana, sugiere nueva evidencia

Esta trabajadora social quiere ayudar a niños con necesidades especiales. Luisiana no la dejará.

New Scientist recomienda Togetherness de Rowan Hooper, una nueva visión radical de la vida

Las acciones europeas caen a medida que aumentan los temores sobre la subida de tipos del BCE