Tag: SmoothQuant

Una implementación de codificación para comprimir y comparar LLM ajustados por instrucciones con FP8, GPTQ y SmoothQuant Quantization usando llmcompressor

importar subproceso, sys def pip(*pkgs): subproceso.check_call() pip(“llmcompressor”, “compressed-tensors”, “transformers>=4.45”, “accelerate”, “datasets”) importar os, gc, time, json, math desde pathlib importar ruta importar antorcha desde transformadores importar AutoModelForCausalLM, AutoTokenizer desde conjuntos…