Cuantización posterior al entrenamiento (PTQ) se centra en reducir el tamaño y mejorar la velocidad de modelos de idiomas grandes (LLMS) para hacerlos más prácticos para el uso del mundo real. Dichos modelos requieren grandes volúmenes de datos, pero la distribución de datos fuertemente sesgada y altamente heterogénea durante la cuantización presenta dificultades considerables. Esto inevitablemente expandiría el rango de cuantización, lo que lo convierte, en la mayoría de los valores, una expresión menos precisa y reduce el rendimiento general en la precisión del modelo. Si bien los métodos PTQ apuntan a abordar estos problemas, los desafíos siguen distribuyendo datos de manera efectiva en todo el espacio de cuantización, lo que limita el potencial de optimización y obstaculiza la implementación más amplia en entornos limitados por recursos.
Los métodos de cuantificación posterior al entrenamiento actual (PTQ) de modelos de lenguaje grande (LLMS) se centran en la cuantización de solo peso y activación de peso. Métodos solo de peso, como GPTQ, Awqy Owqintente reducir el uso de la memoria minimizando los errores de cuantización o abordando los valores atípicos de activación, pero no puede optimizar por completo todos los valores. Técnicas como Sofismo y Sofismo# Use matrices aleatorias y cuantización vectorial, pero siga siendo limitado en el manejo de distribuciones de datos extremas. La cuantificación de la activación de peso tiene como objetivo acelerar la inferencia cuantificando los pesos y las activaciones. Sin embargo, métodos como Suave, Ceroquanty Quarot lucha por manejar el dominio de los valores atípicos de activación, causando errores en la mayoría de los valores. En general, estos métodos se basan en enfoques heurísticos y no logran optimizar la distribución de datos en todo el espacio de cuantización, lo que limita el rendimiento y la eficiencia.
Para abordar las limitaciones de los métodos de cuantización de post-entrenamiento heurístico (PTQ) y la falta de una métrica para evaluar la eficiencia de cuantización, investigadores de The Houmo Ai, Universidad de Nanjing, y Universidad del sudeste propuso el Concepto de tasa de utilización del espacio de cuantización (QSUR). QSUR mide cómo las distribuciones de peso y activación efectiva utilizan el espacio de cuantización, ofreciendo una base cuantitativa para evaluar y mejorar los métodos PTQ. La métrica aprovecha las propiedades estadísticas como la descomposición del valor propio y los elipsoides de confianza para calcular el hipervolumen de las distribuciones de peso y activación. El análisis QSUR muestra cómo las transformaciones lineales y rotacionales afectan la eficiencia de cuantización, con técnicas específicas que reducen las disparidades intercanal y minimizan los valores atípicos para mejorar el rendimiento.
Los investigadores propusieron el Ostquant Marco, que combina transformaciones ortogonales y de escala para optimizar las distribuciones de peso y activación de los modelos de lenguaje grandes. Este enfoque integra pares de transformación equivalentes aprendizables de escala diagonal y matrices ortogonales, garantizando la eficiencia computacional al tiempo que preserva la equivalencia en la cuantización. Reduce el sobreajuste sin comprometer la salida de la red original en el momento de la inferencia. Ostquant utiliza el aprendizaje entre bloque para propagar transformaciones a nivel mundial LLM bloques, empleando técnicas como Inicialización de minimización atípica de peso (WOMI) para una inicialización efectiva. El método logra más alto QSURreduce la sobrecarga de tiempo de ejecución y mejora el rendimiento de cuantización en LLM.
Para fines de evaluación, los investigadores aplicaron Ostquant hacia Llama familia (Llama-1, Llama-2, y Llama-3) y evaluó el rendimiento utilizando la perplejidad en Wikitext2 y nueve tareas de disparo cero. En comparación con métodos como Suave, GPTQ, Quaroty Spinquant, Ostquant Los superó constantemente, logrando al menos 99.5% precisión del punto flotante bajo el Configuración de 4-16-16 y las brechas de rendimiento reducidas significativamente. Llama-3-8b incurrido solo un 0.29-Pointing cae en Tareas de disparo ceroen comparación con las pérdidas superiores 1.55 puntos para otros. En escenarios más difíciles, Ostquant era mejor que Spinquant y ganó tanto como 6.53 apunta LLAMA-2 7B En la configuración 4-4-16. La función de pérdida de KL-top proporcionó un mejor ajuste de la semántica y el ruido reducido, mejorando así el rendimiento y la reducción de las brechas en el W4A4KV4 por 32%. Estos resultados mostraron que Ostquant es más efectivo para el manejo atípico y garantizar que las distribuciones sean más imparciales.
Al final, el método propuesto optimizó las distribuciones de datos en el espacio de cuantización basado en la métrica QSUR y la función de pérdida, KL-top, mejorando el rendimiento de los modelos de lenguaje grandes. Con datos de baja calibración, disminuyó el ruido y la riqueza semántica preservada en comparación con las técnicas de cuantización existentes, logrando un alto rendimiento en múltiples puntos de referencia. Este marco puede servir como base para el trabajo futuro, comenzando un proceso que será fundamental para perfeccionar las técnicas de cuantización y hacer que los modelos sean más eficientes para las aplicaciones que requieren una alta eficiencia de cálculo en entornos con recursos limitados.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora (Promocionado)
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.