Los investigadores de Microsoft AI introducen técnicas avanzadas de cuantificación de bajo bits para permitir la implementación eficiente de LLM en dispositivos de borde sin altos costos computacionales

Los dispositivos de borde como los teléfonos inteligentes, los dispositivos IoT y los sistemas integrados procesan datos localmente, mejorando la privacidad, la reducción de la latencia y la mejora de la capacidad de respuesta, y la IA se está integrando rápidamente en estos dispositivos. Pero, implementar modelos de idiomas grandes (LLM) en estos dispositivos es difícil y complejo debido a sus altas demandas computacionales y de memoria.

Los LLM son enormes en tamaño y requisitos de potencia. Con miles de millones de parámetros, exigen una capacidad significativa de memoria y procesamiento que exceda las capacidades de la mayoría de los dispositivos de borde. Mientras que las técnicas de cuantización reducen el tamaño del modelo y el consumo de energía, el hardware convencional está optimizado para cálculos simétricos, lo que limita el soporte para la aritmética de precisión mixta. Esta falta de soporte de hardware nativo para cálculos de bajo bits restringe la implementación en plataformas móviles e integradas.

Los métodos anteriores para ejecutar los dispositivos LLM en borde utilizan formatos de precisión de alta bits como FP32 y FP16, que mejoran la estabilidad numérica pero requieren una memoria y energía significativas. Algunos enfoques utilizan cuantización de bits más bajos (p. Ej., INT8 o INT4) para reducir las demandas de recursos, pero los problemas de compatibilidad surgen con el hardware existente. Otra técnica, la desquantización, vuelve a expandir los modelos comprimidos antes del cálculo, pero introduce latencia y niega las ganancias de eficiencia. Además, la multiplicación de matriz tradicional (GEMM) requiere niveles de precisión uniformes, lo que hace que la optimización del rendimiento en diferentes arquitecturas de hardware compleja.

Los investigadores de Microsoft introdujeron una serie de avances para permitir una cuantización eficiente de bajo bits para dispositivos LLM en los dispositivos de borde. Su enfoque incluye tres innovaciones principales:

  1. Compilador de tipo de datos de escalera
  2. Biblioteca T-MAC MPGEMM
  3. Arquitectura de hardware de Lut Tensor Tensor Core

Estas técnicas tienen como objetivo superar las limitaciones de hardware facilitando la multiplicación de matriz general de precisión mixta (MPGEMM) y reduciendo la sobrecarga computacional. Con estas soluciones, los investigadores proponen un marco práctico que respalde una inferencia de LLM eficiente sin requerir GPU especializadas o aceleradores de alta potencia.

El primer componente del compilador de datos de escalera une la brecha entre las representaciones del modelo de bajo bit y las restricciones de hardware. Convierte los formatos de datos no respaldados en representaciones compatibles con hardware mientras se mantiene la eficiencia. Este enfoque asegura modernos aprendizaje profundo Las arquitecturas pueden utilizar tipos de datos personalizados sin sacrificar el rendimiento.

La biblioteca MPGEMM T-MAC optimiza los cálculos de precisión mixta utilizando un método basado en la tabla de búsqueda (LUT) en lugar de operaciones de multiplicación tradicionales. Esta innovación elimina la necesidad de desquantización y mejora significativamente la eficiencia computacional de la CPU.

Además, la arquitectura de hardware del núcleo de tensor LUT presenta un acelerador especializado diseñado para cuantización de bajo bits. Aprovecha un conjunto de instrucciones optimizadas para mejorar el rendimiento al tiempo que reduce el consumo de energía.

En las evaluaciones, el compilador de tipo de datos de escalera supera red neuronal profunda (DNN) compiladores por hasta 14.6 veces para cálculos específicos de bajo bits. Cuando se analizan en dispositivos de borde como la computadora portátil Surface 7 con el chipset Qualcomm Snapdragon X Elite, la biblioteca T-MAC logró 48 tokens por segundo para el modelo 3B BITNET-B1.58, superando las bibliotecas de inferencias existentes. En dispositivos de gama baja, como la Raspberry Pi 5, logró 11 tokens por segundo, lo que demuestra mejoras de eficiencia significativas. Mientras tanto, el hardware del núcleo del tensor LUT logró un aumento de 11.2 veces en la eficiencia energética y un aumento de 20.9 veces en la densidad computacional.

Varias conclusiones clave de la investigación de Microsoft incluyen:

  1. La cuantización de bajo bits reduce el tamaño del modelo, lo que permite la ejecución eficiente en dispositivos de borde.
  2. La biblioteca T-MAC mejora la velocidad de inferencia al eliminar las operaciones de multiplicación tradicionales.
  3. El compilador de escalera garantiza una integración perfecta de los formatos de datos de bajo bits personalizados con hardware existente.
  4. Las técnicas optimizadas reducen el uso de energía, lo que hace que los LLM sean factibles para dispositivos de baja energía.
  5. Estos métodos permiten que los LLM funcionen de manera efectiva en una amplia gama de hardware, desde computadoras portátiles de alta gama hasta dispositivos IoT de baja potencia.
  6. Estas innovaciones alcanzan 48 tokens por segundo en Snapdragon X Elite, 30 tokens por segundo en LLAMA 7B de 2 bits y 20 tokens por segundo en 4 bits 7b LLAMA.
  7. También habilitan aplicaciones impulsadas por la IA en sistemas de IA móviles, robóticos e integrados al hacer que los LLM sean más accesibles.

En conclusión, el estudio resalta la importancia de las técnicas de cuantificación conscientes de hardware para implementar LLMS en dispositivos de borde. Las soluciones propuestas abordan efectivamente los desafíos de larga data del consumo de memoria, la eficiencia computacional y la compatibilidad del hardware. Al implementar el núcleo de Tensor Ladder, T-Mac y Lut Tensor, los investigadores han allanado el camino para aplicaciones de IA de próxima generación que son más rápidas, más eficientes en energía y más escalables en varias plataformas.


Verificar el Detalles y Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de agente múltiple de código abierto para evaluar el complejo sistema de IA conversacional’ (promovido)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.