Screenshot 2024 02 02 At 9.12.43 Am.png

En lingüística computacional e inteligencia artificial, los investigadores se esfuerzan continuamente por optimizar el rendimiento de los modelos de lenguaje grandes (LLM). Estos modelos, reconocidos por su capacidad para procesar una amplia gama de tareas relacionadas con el lenguaje, enfrentan importantes desafíos debido a su enorme tamaño. Por ejemplo, modelos como GPT-3, con 175 mil millones de parámetros, requieren una memoria GPU sustancial, lo que resalta la necesidad de métodos computacionales de alto rendimiento y más eficientes en memoria.

Uno de los principales desafíos al implementar modelos de lenguaje grandes es su enorme tamaño, que requiere una cantidad significativa de memoria GPU y recursos computacionales. Los problemas del muro de memoria agravan aún más este desafío durante la generación de tokens, donde la velocidad de inferencia del modelo está limitada principalmente por el tiempo necesario para leer los pesos del modelo de la DRAM de la GPU. En consecuencia, existe una necesidad apremiante de métodos eficientes para reducir la memoria y la carga computacional sin comprometer el rendimiento de los modelos.

Los enfoques actuales para manejar modelos de lenguaje grandes a menudo implican técnicas de cuantificación que utilizan menos bits para representar el peso de cada modelo, lo que da como resultado una representación más compacta. Sin embargo, estas técnicas tienen limitaciones. Por ejemplo, si bien reducen el tamaño del modelo, las cuantificaciones de 4 y 8 bits no admiten de manera eficiente la ejecución de capas lineales en las GPU modernas, lo que compromete la calidad del modelo o la velocidad de inferencia.

Un equipo de investigadores de Microsoft, la Universidad de Sydney y la Universidad de Rutgers presentó un diseño de sistema, TC-FPx, el primer esquema de diseño de kernel de GPU de pila completa con soporte unificado de Tensor Core para varios anchos de bits de cuantificación, incluidos 6 bits. 5 bits y 3 bits. Este diseño aborda los desafíos del acceso hostil a la memoria y la alta sobrecarga de tiempo de ejecución asociados con la descuantificación del peso en modelos de lenguaje grandes. Al integrar TC-FPx en los sistemas de inferencia existentes, desarrollaron un nuevo sistema de soporte de extremo a extremo, FP6-LLM, para la inferencia LLM cuantificada.

TC-FPx emplea preempaquetado a nivel de bits con anticipación y tiempo de ejecución de GPU eficiente en SIMT para optimizar el acceso a la memoria y minimizar la sobrecarga del tiempo de ejecución de la descuantificación del peso. Este enfoque mejora significativamente el rendimiento de modelos de lenguaje grandes al permitir una inferencia más eficiente con requisitos de memoria reducidos. Los investigadores demostraron que FP6-LLM permite la inferencia de modelos como LLaMA-70b utilizando una sola GPU, logrando un rendimiento de inferencia normalizada sustancialmente mayor que la línea de base de FP16.

El rendimiento de FP6-LLM ha sido evaluado rigurosamente, mostrando sus mejoras significativas en el rendimiento de inferencia normalizada en comparación con la línea de base FP16. En particular, FP6-LLM permitió la inferencia de modelos como LLaMA-70b usando solo una GPU y logrando un rendimiento entre 1,69 y 2,65 veces mayor. Este avance demuestra el potencial del FP6-LLM para ofrecer una solución más eficiente y rentable para implementar grandes modelos lingüísticos. La capacidad del sistema para manejar la inferencia de modelos complejos con una sola GPU representa un avance considerable en el campo, abriendo nuevas posibilidades para aplicar modelos de lenguaje grandes en diversos dominios.

En conclusión, la investigación presenta un enfoque innovador para implementar grandes modelos de lenguaje a través del desarrollo de FP6-LLM. Utilizando el diseño del núcleo TC-FPx, este sistema aborda los importantes desafíos que plantean el tamaño y las demandas computacionales de estos modelos. Al permitir un uso más eficiente de la memoria GPU y un mayor rendimiento de inferencia, FP6-LLM representa un paso vital hacia la implementación práctica y escalable de grandes modelos de lenguaje, allanando el camino para su aplicación y utilidad más amplias en el campo de la inteligencia artificial.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.