Neural Magic lanza la versión FP8 totalmente cuantificada del modelo Llama 3.1 405B de Meta: cuantificación dinámica FP8 y cuantificación estática FP8

Neural Magic ha anunciado recientemente un avance significativo en la compresión de modelos de IA, presentando un algoritmo totalmente cuantificado Versión FP8 del modelo Llama 3.1 405B de MetaEste logro marca un hito en la IA, ya que permite que el modelo masivo de 405 mil millones de parámetros se adapte perfectamente a cualquier sistema 8xH100 o 8xA100 sin los errores comunes de falta de memoria (OOM) que suelen encontrarse con las versiones originales FP8 y FP16. El nuevo modelo resuelve las limitaciones de memoria y mejora las velocidades de inferencia en más de 2 veces, aprovechando capacidades de computación y memoria más rápidas y eliminando la necesidad de descargar o distribuir la CPU entre múltiples nodos.

Neural Magic ofrece dos versiones clave del modelo:

La versión FP8 totalmente cuantificada, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, mantiene la arquitectura de Meta-Llama-3.1, diseñada para un chat tipo asistente en varios idiomas. Sin embargo, está restringida al uso en inglés y solo para aplicaciones legales. Lanzado bajo la versión 1.0, este modelo fue desarrollado por Neural Magic y opera bajo la licencia llama3.1.

Cuantización y optimización

El modelo logra una eficiencia notable a través de la cuantificación de peso y activación del tipo de datos FP8. Este proceso reduce la cantidad de bits por parámetro de 16 a 8, lo que reduce a la mitad el tamaño del disco y los requisitos de memoria de la GPU. En consecuencia, el modelo se puede cargar y evaluar en un solo nodo de 8 GPU H100 en lugar de requerir múltiples nodos.

El proceso de cuantificación implica una cuantificación simétrica por canal, donde un escalamiento lineal por dimensión de salida asigna las representaciones FP8 de los pesos y activaciones cuantificados. Las activaciones se cuantifican dinámicamente por token. Esto se logró utilizando LLM Compressor con 512 secuencias de UltraChat, lo que garantiza un rendimiento óptimo.

Despliegue y evaluación

El modelo cuantizado de Neural Magic se puede implementar de manera eficiente utilizando el backend vLLM. El proceso de implementación implica el uso de las bibliotecas `vllm` y `transformers` en Python, como se demuestra en los fragmentos de código proporcionados. El ejemplo destaca la integración del modelo con vLLM, mostrando la facilidad de generar texto utilizando el modelo optimizado.

El modelo se evaluó en varios puntos de referencia, incluidos MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande y TruthfulQA. La evaluación utilizó la bifurcación de Neural Magic de ‘lm-evaluation-harness’ y el motor vLLM. El modelo cuantificado, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, logró una puntuación promedio de 86,55 en el punto de referencia OpenLLM, que refleja de cerca la puntuación del modelo no cuantificado de 86,63, lo que demuestra una recuperación casi perfecta del 99,91 %.

Reproducción y precisión

Neural Magic proporciona comandos detallados para reproducir los resultados de la evaluación en varios puntos de referencia. Estos comandos ilustran la solidez del modelo cuantificado, manteniendo una alta precisión en diferentes tareas y configuraciones de pocos disparos. Por ejemplo, el modelo logró una tasa de recuperación del 99,91 % en MMLU (5 disparos) y del 100,2 % en Winogrande (5 disparos), lo que subraya su confiabilidad y precisión.

Conclusión

En conclusión, el lanzamiento de la versión FP8 totalmente cuantificada del modelo Llama 3.1 405B de Meta por parte de Neural Magic, al reducir eficazmente los requisitos de memoria y mejorar las velocidades de inferencia, abre nuevos caminos para aplicaciones de IA eficientes y escalables. El éxito de este esfuerzo de cuantificación, con una pérdida mínima de precisión, destaca el potencial para futuras innovaciones en el campo, haciendo que los modelos de IA potentes sean más accesibles y prácticos para diversos usuarios.


Revisar la Cuantificación dinámica FP8 y Cuantización estática FP8Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.