Los modelos de lenguaje grande (LLM) se han convertido en la piedra angular de la inteligencia artificial, impulsando avances en el procesamiento del lenguaje natural y las tareas de toma de decisiones. Sin embargo, sus grandes demandas de energía, resultantes de una alta sobrecarga computacional y un acceso frecuente a la memoria externa, obstaculizan significativamente su escalabilidad e implementación, especialmente en entornos con restricciones de energía, como los dispositivos de borde. Esto aumenta el costo de operación y al mismo tiempo limita la accesibilidad a estos LLM, lo que, por lo tanto, requiere enfoques energéticamente eficientes diseñados para manejar modelos de mil millones de parámetros.
Los enfoques actuales para reducir las necesidades computacionales y de memoria de los LLM se basan en procesadores de propósito general o en GPU, con una combinación de cuantificación de peso y optimizaciones conscientes de la escasez. Estos han demostrado ser relativamente exitosos en lograr algunos ahorros, pero todavía dependen en gran medida de la memoria externa, lo que genera una importante sobrecarga de energía y no logra ofrecer el rendimiento de baja latencia necesario para muchas ejecuciones de aplicaciones en tiempo real. Estos enfoques son menos adecuados para sistemas de IA sostenibles o con recursos limitados.
Para abordar estas limitaciones, investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) desarrollaron Slim-Llama, un circuito integrado de aplicación específica (ASIC) altamente eficiente diseñado para optimizar la implementación de LLM. Este novedoso procesador utiliza cuantificación binaria/ternaria para reducir la precisión de los pesos del modelo de real a 1 o 2 bits, minimizando así importantes demandas computacionales y de memoria, dejando el rendimiento intacto. Esto utiliza una tabla de búsqueda consciente de la dispersión o SLT que permite la gestión de datos dispersos. Emplea reutilizaciones de salida e indexación de vectores con optimizaciones para que la redundancia de procedimientos repetidos optimice los flujos de datos. De este modo, esta lista de características elimina las limitaciones comunes para lograr el método típico. Producen un mecanismo de soporte escalable y de bajo consumo energético para manejar tareas de ejecución dentro de miles de millones de LLM.
Slim-Llama se fabrica utilizando la tecnología CMOS de 28 nm de Samsung, con un área de matriz compacta de 20,25 mm² y 500 KB de SRAM en chip. Este diseño elimina toda dependencia de la memoria externa; este es el único recurso por el cual los sistemas tradicionales están perdiendo tanta energía. Admite ancho de banda de hasta 1,6 GB/s en frecuencias de 200 MHz, por lo que la gestión de datos a través de este modelo es fluida y muy eficiente. Slim-Llama es capaz de alcanzar una latencia de 489 milisegundos utilizando el modelo Llama de 1 bit y admite modelos con hasta 3 mil millones de parámetros, por lo que está bien posicionado para las aplicaciones actuales de inteligencia artificial, que requieren tanto rendimiento como eficiencia. Las innovaciones arquitectónicas más críticas son la cuantificación binaria y ternaria, la optimización consciente de la escasez y la gestión eficiente del flujo de datos, que logran importantes ganancias de eficiencia sin comprometer la eficiencia computacional.
Los resultados destacan la alta eficiencia energética y las capacidades de rendimiento de Slim-Llama. Logra una mejora de 4,59 veces en términos de eficiencia energética con respecto a soluciones de última generación anteriores, cuyo consumo de energía oscila entre 4,69 mW a 25 MHz y 82,07 mW a 200 MHz. El procesador alcanza un pico de 4,92 TOPS con una eficiencia de 1,31 TOPS/W, abordando el requisito crítico de hardware energéticamente eficiente con modelos de IA a gran escala implementados. Slim-Llama puede procesar modelos de mil millones de parámetros con una latencia mínima, lo que proporciona un candidato prometedor para aplicaciones en tiempo real. Una tabla de referencia, “Comparación de eficiencia energética de Slim-Llama”, ilustra el rendimiento relativo a los sistemas de referencia en términos de consumo de energía, latencia y eficiencia energética, con Slim-Llama logrando 4,92 TOPS y 1,31 TOPS/W, respectivamente, por lo que superando ampliamente el rendimiento de las soluciones de hardware básicas.
Slim-Llama es una nueva frontera para superar los cuellos de botella energéticos en el despliegue de LLM. Esta solución escalable y sostenible combina técnicas de cuantificación novedosas, optimización consciente de la escasez y mejoras en el flujo de datos para satisfacer las necesidades modernas de las aplicaciones de IA. El método propuesto no sólo consiste en implementar de manera eficiente modelos de mil millones de parámetros, sino que también abre las puertas a sistemas de IA más accesibles y respetuosos con el medio ambiente al establecer un nuevo punto de referencia para el hardware de IA energéticamente eficiente.
Verificar el Detalles técnicos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.