El rápido escalamiento de los modelos de difusión ha generado desafíos en el uso de la memoria y la latencia, lo que dificulta su implementación, particularmente en entornos con recursos limitados. Dichos modelos han manifestado una capacidad impresionante para generar imágenes de alta fidelidad, pero son exigentes tanto en memoria como en computación, lo que limita su disponibilidad en dispositivos y aplicaciones de consumo que requieren bajas latencias. Por lo tanto, es necesario abordar estos desafíos para que sea factible entrenar modelos de difusión a gran escala en una gran multiplicidad de plataformas en tiempo real.
Las técnicas actuales para resolver problemas de memoria y velocidad de los modelos de difusión incluyen la cuantificación posterior al entrenamiento y el entrenamiento consciente de la cuantificación, principalmente con métodos de cuantificación de solo peso, como NormalFloat4 (NF4). Si bien estos métodos funcionan bien para los modelos de lenguaje, no son suficientes para los modelos de difusión debido a sus mayores requisitos computacionales. A diferencia de los modelos de lenguaje, los modelos de difusión requieren una cuantificación simultánea de bits bajos tanto de los pesos como de las activaciones para evitar la degradación del rendimiento. Los métodos existentes para la cuantificación se ven afectados por la presencia de valores atípicos tanto en pesos como en activaciones con una precisión de 4 bits y contribuyen a comprometer la calidad visual junto con ineficiencias computacionales, lo que justifica una solución más sólida.
Investigadores del MIT, NVIDIA, CMU, Princeton, UC Berkeley, SJTU y Pika Labs proponen SVDQuant. Este paradigma de cuantificación introduce una rama de bajo rango para absorber valores atípicos, lo que facilita una cuantificación eficaz de 4 bits para modelos de difusión. Usando SVD creativo para lidiar con los valores atípicos, SVDQuant lo transferiría desde las activaciones al peso y luego lo absorbería en una rama de bajo rango que permite cuantificar el residuo a 4 bits sin pérdida de rendimiento y evitar un error común relacionado con los valores atípicos. optimización adicional del proceso de cuantificación sin recuantización adicional. Los científicos desarrollaron un motor de inferencia llamado Nunchaku que combina núcleos de cálculo de bajo rango y bits bajos con optimización del acceso a la memoria para reducir la latencia.
SVDQuant funciona suavizando y enviando valores atípicos de activaciones a pesos. Luego, aplicando la descomposición SVD sobre los pesos, divida los pesos en un rango bajo y residual. El componente de bajo rango absorbería los valores atípicos con una precisión de 16 bits, mientras que el residual se cuantificaría con una precisión de 4 bits. El motor de inferencia Nunchaku optimiza esto aún más al permitir que las ramas de bajo rango y de bits bajos se unan, fusionando así las dependencias de entrada y salida, lo que resulta en un acceso reducido a la memoria y, posteriormente, una latencia reducida. Sorprendentemente, las evaluaciones de modelos como FLUX.1 y SDXL, utilizando conjuntos de datos como MJHQ y sDCI, revelan enormes ahorros de memoria de 3,5 veces y ahorros de latencia de hasta 10,1 veces en dispositivos portátiles. Por ejemplo, la aplicación de SVDQuant reduce el modelo FLUX.1 de 12 mil millones de parámetros de 22,7 GB a 6,5 GB, evitando la descarga de la CPU en configuraciones con memoria limitada.
El SVDQuant superó los métodos de cuantificación de última generación tanto en eficiencia como en fidelidad visual. Para la cuantificación de 4 bits, SVDQuant muestra constantemente una gran similitud perceptual acompañada de construcciones numéricas de alta calidad que pueden preservarse para cualquier tarea de generación de imágenes con un rendimiento superior constante a sus competidores, como NF4, en lo que respecta a su distancia de inicio Fréchet, ImageReward, LPIPS, y puntuaciones PSNR en múltiples arquitecturas de modelos de difusión y, por ejemplo, en comparación con el modelo FLUX.1-dev, la configuración de SVDQuant está bien ajustada en puntuaciones LPIPS alineadas estrechamente con la línea base de 16 bits, al tiempo que ahorra 3,5 veces el tamaño del modelo y logra alrededor de 10,1. × aceleración en dispositivos GPU sin tener que descargar la CPU. Esta eficiencia respalda la generación en tiempo real de imágenes de alta calidad en dispositivos con memoria limitada y subraya el despliegue práctico eficaz de modelos de gran difusión.
En conclusión, el enfoque propuesto SVDQuant emplea cuantificación avanzada de 4 bits; Aquí, los problemas atípicos encontrados en el modelo de difusión se solucionan manteniendo la calidad de las imágenes, con reducciones significativas en la memoria y la latencia. La optimización de la cuantificación y la eliminación del movimiento de datos redundantes mediante el motor de inferencia Nunchaku forma una base para la implementación eficiente de grandes modelos de difusión y, por lo tanto, impulsa su uso potencial en aplicaciones interactivas del mundo real en hardware de consumo.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[AI Magazine/Report] Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.