El sistema de refrigeración de inspiración nuclear de una startup podría hacer que los centros de datos sean más sostenibles | Noticias del MIT

El auge de la inteligencia artificial se debe a una enorme expansión de los centros de datos. Se prevé que los centros de datos representen entre el 9 y el 17 por ciento del uso total de electricidad en Estados Unidos para finales de la década. Hoy en día, alrededor de un tercio de la electricidad de los centros de datos se dedica a enfriar los chips que ejecutan los modelos de IA.

Ése es el proceso que Ferveret está trabajando para hacer más eficiente. La startup, fundada por Reza Azizian, ex postdoctorado del MIT en ingeniería nuclear, y Matteo Bucci, profesor asociado Esther y Harold E. Edgerton del MIT en el Departamento de Ciencia e Ingeniería Nuclear, está adaptando un enfoque de reactores nucleares para enfriar chips sin usar agua y con mucha menos electricidad.

El sistema de refrigeración de la empresa sumerge los servidores informáticos en un líquido especializado que absorbe el calor de forma mucho más eficiente que el aire de un ventilador. Lo que diferencia a la solución de otros sistemas de refrigeración líquida son las burbujas: la solución Adaptive Phase Cooling (APC) de Ferveret produce burbujas mucho más pequeñas en la superficie del servidor, que se desprenden con más frecuencia, acelerando el proceso de transferencia de calor.

Ferveret ya está probando sus soluciones con empresas como CleanSpark, el desarrollador y operador de centros de datos, así como FuriosaAI, una empresa aceleradora de IA, y Switch, uno de los mayores operadores de centros de datos de EE. UU.

En un estudio reciente en colaboración con el Departamento de Ciencias de la Computación Samueli de la Universidad de California en Los Ángeles, Ferveret descubrió que su solución APC generó una mejora del 15 por ciento en la eficiencia de la energía computacional en comparación con las soluciones de refrigeración líquida de última generación. Al combinar esos ahorros con el sistema de control de energía de Ferveret para optimizar las condiciones operativas, la compañía dice que permite a los centros de datos obtener un 35 por ciento más de tokens (pequeños fragmentos de texto o datos) de sus modelos de IA con la misma cantidad de energía.

“Nuestro objetivo es hacer que los centros de datos sean lo más sostenibles posible y ayudarlos a utilizar cada vatio de energía para generar tokens, que son los resultados más útiles”, dice Azizian. “Nuestro sistema permite el funcionamiento de chips más potentes, ayuda a que los centros de datos desperdicien mucha menos energía y logra todo eso con cero consumo de agua”.

De los reactores nucleares a la IA

Azizian era un postdoctorado en el MIT en 2013 cuando conoció a Bucci, quien entonces era un científico investigador. Trabajaron en la transferencia de calor en reactores nucleares antes de que Azizian ingresara a la industria, donde centró su atención en enfriar chips. Azizian trabajó por primera vez en los cascos de realidad aumentada HoloLens de Microsoft y luego se unió a Nvidia, que produce las unidades de procesamiento gráfico que las empresas utilizan para entrenar y ejecutar los últimos modelos de IA. Mientras tanto, Bucci continuó realizando investigaciones en el MIT y se convirtió en profesor asistente en 2016.

Azizian entró en su primer centro de datos en 2017, donde quedó impresionado por los enormes y ruidosos ventiladores que llenaban el edificio mientras se enfriaban.

“Pensé: ‘Mierda, así no es como se enfrían las instalaciones’”, recuerda Azizian, señalando que el enfriamiento por aire aún puede consumir el 40 por ciento de la energía que ingresa a un centro de datos. “No era una forma eficiente de hacer las cosas, pero como no perjudicaba el rendimiento, a nadie le importaba que la tecnología de refrigeración tuviera 50 años”.

Azizian comenzó a hablar con Bucci sobre la aplicación de sus conocimientos sobre la optimización de la transferencia de calor en los reactores nucleares a los centros de datos. Los científicos han pasado décadas buscando mejores formas de mover el calor en los reactores nucleares.

“La transferencia de calor determina cuánta energía se puede extraer del núcleo del reactor, lo que se traduce directamente en ingresos”, explica Azizian.

Los fundadores fundaron Ferveret en 2021. Muchas cosas han cambiado desde que Azizian ingresó a su primer centro de datos. Las compañías de chips han incluido cada vez más componentes en sus chips a medida que la explosión de la inteligencia artificial ha puesto de relieve la importancia de exprimir la mayor capacidad informática posible a partir de suministros de energía limitados.

Eso ha llevado a los operadores de centros de datos a utilizar líquido para enfriar los chips, a menudo mediante una técnica conocida como enfriamiento por inmersión que sumerge los chips en líquido. La forma más eficaz de enfriamiento por inmersión es hacer que el líquido hierva.

“El líquido es un mejor medio de transferencia de calor que el aire. Por eso, cuando metes la mano en agua a temperatura ambiente, todavía se siente fría”, explica Bucci. “Cuando el líquido hierve, elimina aún mejor el calor porque el cambio de fase requiere mucha energía, que es la energía que se extrae del chip. Eso permite transferir grandes cantidades de calor con diferencias mínimas de temperatura entre los chips y el líquido”.

Desafortunadamente, el líquido hirviendo agrega complejidad al sistema porque obliga a los operadores a capturar y relicuar las burbujas mientras controlan la presión, la temperatura y el inventario de fluidos.

El sistema de Ferveret está adaptado de un proceso en reactores nucleares llamado ebullición subenfriada. Utiliza un líquido con un punto de ebullición bajo y ninguno de los “químicos permanentes” tóxicos PFAS en los que se basan otros enfoques. En la superficie del chip, el líquido de Ferveret produce burbujas más pequeñas que otros métodos de enfriamiento por inmersión. Esas burbujas se desprenden con mayor frecuencia y se recondensan rápidamente en el líquido circundante, lo que acelera el ciclo de rehumectación de las burbujas en la superficie del chip para acelerar la transferencia de calor.

Ferveret entrega su sistema APC en pequeñas cajas, cada una de las cuales alberga un servidor. Los fundadores dicen que sus sistemas modulares facilitan la implementación del sistema y simplifican el mantenimiento.

“La física nos permite llegar a formar factores que no eran posibles en el pasado”, dice Azizian. “La mayoría de las soluciones de enfriamiento por inmersión son tanques grandes en los que la gente sumerge los servidores. Tenemos una solución modular más pequeña montada en bastidor que la hace adaptable a la infraestructura actual, por lo que es más fácil para las personas implementar nuestra tecnología”.

Ferveret también ofrece software de control que ajusta la energía que llega a cada servidor en tiempo real para mejorar aún más la eficiencia.

“Ofrecemos sistemas completos que incluyen la caja de refrigeración, el bastidor, las unidades de distribución de refrigeración y sensores que miden la temperatura y la presión”, afirma Bucci. “Nuestro software monitorea esos sensores y optimiza las condiciones operativas dentro de cada caja para garantizar que se minimice el consumo de energía en el sistema”.

IA con menos recursos

Además de ayudar a que los centros de datos funcionen de manera más eficiente, Ferveret también está mejorando la sostenibilidad al facilitar la operación de centros de datos en regiones remotas con más energía renovable.

“El sol brilla en lugares donde no hay mucha agua, por lo que la ventaja de que no tengamos agua es que le permitimos construir centros de datos donde hay energía solar pero nada para enfriar el centro de datos”, dice Bucci. “Esta tecnología puede ayudar a implementar centros de datos en regiones donde normalmente no se tendrían los recursos para hacerlo, incluidos África, Medio Oriente y, por supuesto, partes de Estados Unidos. Es un gran desbloqueo”.

Ferveret está en conversaciones con las grandes empresas de computación en la nube conocidas como hyperscalers y actualmente forma parte del programa Inception de Nvidia para startups. La compañía planea anunciar asociaciones ampliadas a finales de este año. A partir de ahí, los fundadores planean escalar rápidamente su tecnología para ayudar a que la industria de la IA continúe creciendo sin forzar más al planeta.

“La industria informática se enfrenta a un enorme desafío en forma de acceso a la energía, y tiene problemas con el acceso al agua en muchas regiones”, dice Azizian. “Eso sólo se volverá más limitante a medida que la industria crezca. El principal objetivo de estos operadores de centros de datos sería obtener más tokens del poder que tienen. Hemos demostrado que podemos hacerlo”.