Cuantización y co.  Reducir los tiempos de inferencia en los LLM en un 80% |  de Christopher Karg |  octubre de 2023
Fuente: https://www.pexels.com/photo/cropland-in-autumn-18684338/

La cuantificación es una técnica utilizada para una variedad de algoritmos diferentes, pero ha ganado prevalencia con la afluencia bastante reciente de modelos de lenguaje grande (LLM). En este artículo, mi objetivo es proporcionar información sobre la cuantificación de LLM y el impacto que esta técnica puede tener en la ejecución de estos modelos localmente. Cubriré una estrategia diferente fuera de la cuantificación que puede reducir aún más los requisitos computacionales para ejecutar estos modelos. Continuaré explicando por qué estas técnicas pueden ser de su interés y le mostraré algunos puntos de referencia con ejemplos de código sobre cuán efectivas son estas técnicas. También cubro brevemente los requisitos/recomendaciones de hardware y las herramientas modernas disponibles para lograr sus objetivos de LLM en su máquina. En un artículo posterior planeo proporcionar instrucciones paso a paso y código para ajustar su propio LLM, así que esté atento a eso.

TL;DR: cuantificando nuestro LLM y cambiando el tensor tipo dpodemos ejecutar inferencia en un LLM con el doble de parámetros y al mismo tiempo reducir tiempo de pared en un 80%.

Como siempre, si desea discutir algo que cubro aquí, por favor alcanzar.

Todas las opiniones en este artículo son mías. Este artículo no está patrocinado.

La cuantificación nos permite reducir el tamaño de nuestras redes neuronales al convertir los pesos y sesgos de la red de su formato original de punto flotante (por ejemplo, 32 bits) a un formato de menor precisión (por ejemplo, 8 bits). El formato de coma flotante original puede variar dependiendo de varios factores, como la arquitectura del modelo y los procesos de entrenamiento. El objetivo final de la cuantificación es reducir el tamaño de nuestro modelo, reduciendo así los requisitos de memoria y computacionales para ejecutar la inferencia y entrenar nuestro modelo. La cuantización puede volverse complicada muy rápidamente si intenta cuantizar los modelos usted mismo. Esto se debe en gran medida a la falta de soporte de hardware de determinados proveedores. Afortunadamente, esto se puede evitar mediante el uso de software y servicios específicos de terceros.

Personalmente, he tenido que pasar por algunos obstáculos para cuantificar LLM como Meta’s Llama-2 en mi Mac. Esto se debe en gran medida a la falta de soporte para bibliotecas estándar (o cualquier cosa con kernels CUDA personalizados). Herramientas de terceros como…