Cuantización y co. Reducir los tiempos de inferencia en los LLM en un 80% | de Christopher Karg

Fuente: https://www.pexels.com/photo/cropland-in-autumn-18684338/

La cuantificación es una técnica utilizada para una variedad de algoritmos diferentes, pero ha ganado prevalencia con la afluencia bastante reciente de modelos de lenguaje grande (LLM). En este artículo, mi objetivo es proporcionar información sobre la cuantificación de LLM y el impacto que esta técnica puede tener en la ejecución de estos modelos localmente. Cubriré una estrategia diferente fuera de la cuantificación que puede reducir aún más los requisitos computacionales para ejecutar estos modelos. Continuaré explicando por qué estas técnicas pueden ser de su interés y le mostraré algunos puntos de referencia con ejemplos de código sobre cuán efectivas son estas técnicas. También cubro brevemente los requisitos/recomendaciones de hardware y las herramientas modernas disponibles para lograr sus objetivos de LLM en su máquina. En un artículo posterior planeo proporcionar instrucciones paso a paso y código para ajustar su propio LLM, así que esté atento a eso.

TL;DR: cuantificando nuestro LLM y cambiando el tensor tipo dpodemos ejecutar inferencia en un LLM con el doble de parámetros y al mismo tiempo reducir tiempo de pared en un 80%.

Como siempre, si desea discutir algo que cubro aquí, por favor alcanzar.

Todas las opiniones en este artículo son mías. Este artículo no está patrocinado.

La cuantificación nos permite reducir el tamaño de nuestras redes neuronales al convertir los pesos y sesgos de la red de su formato original de punto flotante (por ejemplo, 32 bits) a un formato de menor precisión (por ejemplo, 8 bits). El formato de coma flotante original puede variar dependiendo de varios factores, como la arquitectura del modelo y los procesos de entrenamiento. El objetivo final de la cuantificación es reducir el tamaño de nuestro modelo, reduciendo así los requisitos de memoria y computacionales para ejecutar la inferencia y entrenar nuestro modelo. La cuantización puede volverse complicada muy rápidamente si intenta cuantizar los modelos usted mismo. Esto se debe en gran medida a la falta de soporte de hardware de determinados proveedores. Afortunadamente, esto se puede evitar mediante el uso de software y servicios específicos de terceros.

Personalmente, he tenido que pasar por algunos obstáculos para cuantificar LLM como Meta’s Llama-2 en mi Mac. Esto se debe en gran medida a la falta de soporte para bibliotecas estándar (o cualquier cosa con kernels CUDA personalizados). Herramientas de terceros como…

Cuantización y co. Reducir los tiempos de inferencia en los LLM en un 80% | de Christopher Karg | octubre de 2023

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

You missed

Cleotrapa reacciona después de que un video muestra a Ice Spice en una pelea en McDonald’s

El cometa 3I/ATLAS arrojó metano al pasar por el Sol, revelando hielos ocultos debajo de su superficie

27 a 500+: victorias en conservación, recuperación, protección y reintroducción del hábitat

La crisis energética de los centros de datos está asfixiando la revolución de la IA