Neural Magic lanza LLM Compressor: una nueva biblioteca para comprimir LLM y lograr una inferencia más rápida con vLLM

Neural Magic ha lanzado el Compresor LLMuna herramienta de última generación para la optimización de modelos de lenguaje de gran tamaño que permite una inferencia mucho más rápida a través de una compresión de modelos mucho más avanzada. Por lo tanto, la herramienta es un componente importante en la búsqueda de Neural Magic de hacer que las soluciones de código abierto de alto rendimiento estén disponibles para la comunidad de aprendizaje profundo, especialmente dentro del marco vLLM.

LLM Compressor reduce las dificultades que surgen del panorama fragmentado anterior de herramientas de compresión de modelos, en el que los usuarios tenían que desarrollar múltiples bibliotecas a medida similares a AutoGPTQ, AutoAWQ y AutoFP8 para aplicar ciertos algoritmos de cuantificación y compresión. LLM Compressor integra estas herramientas fragmentadas en una sola biblioteca para aplicar fácilmente algoritmos de compresión de última generación como GPTQ, SmoothQuant y SparseGPT. Estos algoritmos se implementan para crear modelos comprimidos que ofrecen una latencia de inferencia reducida y mantienen altos niveles de precisión, lo que es fundamental para que el modelo esté en entornos de producción.

El segundo avance técnico clave que aporta el compresor LLM es el soporte para la activación y la cuantificación de pesos. En particular, la cuantificación de la activación es importante para garantizar que se utilicen los núcleos tensoriales INT8 y FP8. Estos están optimizados para la computación de alto rendimiento en las nuevas arquitecturas de GPU de NVIDIA, como las arquitecturas Ada Lovelace y Hopper. Esta es una capacidad importante para acelerar las cargas de trabajo limitadas por el cálculo, donde el cuello de botella computacional se alivia mediante el uso de unidades aritméticas de menor precisión. Esto significa que, al cuantificar las activaciones y los pesos, el compresor LLM permite un aumento de hasta el doble en el rendimiento para las tareas de inferencia, principalmente bajo altas cargas de servidor. Esto está atestiguado por modelos grandes como Llama 3.1 70B, que demuestra que al usar el compresor LLM, el modelo logra un rendimiento de latencia muy cercano al de una versión no cuantificada que se ejecuta en cuatro GPU con solo dos.

Además de la cuantificación de activación, el compresor LLM admite la poda de peso de 2:4 con escasez estructurada de última generación con SparseGPT. Esta poda de peso elimina los parámetros redundantes de forma selectiva para reducir la pérdida de precisión al reducir el tamaño del modelo en un 50 %. Además de acelerar la inferencia, esta combinación de cuantificación y poda minimiza el uso de memoria y permite la implementación en hardware con recursos limitados para los LLM.

El compresor LLM fue diseñado para integrarse fácilmente en cualquier ecosistema de código abierto, en particular en el centro de modelos Hugging Face, a través de la carga y ejecución sencillas de modelos comprimidos dentro de vLLM. Además, la herramienta amplía esto al admitir una variedad de esquemas de cuantificación, incluido el control detallado de la cuantificación, como por tensor o por canal en pesos y por tensor o por token en la activación. Esta flexibilidad en la estrategia de cuantificación permitirá un ajuste muy preciso en relación con las demandas de rendimiento y precisión de diferentes modelos y escenarios de implementación.

Técnicamente, el compresor LLM está diseñado para funcionar con varias arquitecturas de modelos con capacidad de ampliación. Tiene una hoja de ruta agresiva para la herramienta, que incluye la ampliación de la compatibilidad con modelos MoE, modelos de lenguaje de visión y plataformas de hardware que no sean NVIDIA. Otras áreas de la hoja de ruta que se deben desarrollar incluyen técnicas de cuantificación avanzadas como AWQ y herramientas para crear esquemas de cuantificación no uniformes; se espera que estas amplíen aún más la eficiencia del modelo.

En conclusión, LLM Compressor se convierte así en una herramienta importante tanto para investigadores como para profesionales a la hora de optimizar los LLM para su implementación en producción. Es de código abierto y tiene características de última generación, lo que facilita la compresión de modelos y la obtención de importantes mejoras de rendimiento sin afectar la integridad de los modelos. LLM Compressor y otras herramientas similares desempeñarán un papel muy importante en breve cuando la IA siga escalando para implementar de forma eficiente modelos de gran tamaño en diversos entornos de hardware, haciéndolos más accesibles para su aplicación en muchas otras áreas.

Echa un vistazo a la Página de GitHub y Detalles. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí

Neural Magic lanza LLM Compressor: una nueva biblioteca para comprimir LLM y lograr una inferencia más rápida con vLLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

La apuesta del LLM | Hacia la ciencia de datos

¿Qué significa el valor p?

You missed

Gibraltar prepara una frontera de alta tecnología antes del lanzamiento del acuerdo Brexit

5 cosas sobre el creador de ‘InfoWars’ – Hollywood Life

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

¡600 aterrizajes de cohetes! SpaceX logra otro hito durante el lanzamiento de Starlink el domingo