Quantization & Pruning

Un modèle entraîné en FP32 (32 bits par poids) gaspille une quantité colossale de précision — la plupart des poids pourraient être stockés en 8, 4, voire 2 bits sans perte significative. La quantization exploite cette redondance.

La quantization post-training (PTQ) convertit un modèle entraîné sans le ré-entraîner. INT8 devient le standard en 2018 (TensorRT, TFLite). GPTQ (Frantar et al., 2022) adapte la PTQ aux LLMs en corrigeant l’erreur de quantization couche par couche via une pseudo-inverse de Hessienne — un 175B devient 4-bit sans ré-entraînement.

SmoothQuant (Xiao et al., 2023) résout un problème spécifique aux LLMs : la distribution des activations est extrêmement asymétrique (quelques canaux ont des magnitudes 100× plus grandes). En transférant mathématiquement le “lissage” des activations vers les poids, la quantization 8-bit devient possible sans perte de qualité. AWQ (Lin et al., 2023) affine en ne protégeant que 1% des poids les plus importants tout en quantizant le reste.

En 2024, le FP8 devient natif sur le hardware (H100, B200) — plus besoin d’émuler la quantization, le GPU la supporte directement. Les LLMs de production tournent en INT4/FP8, et les modèles les plus récents (Llama 3, Mixtral) sont souvent déployés en 4-bit.

Année	Contribution	Concept
2015	Deep Compression — pruning + quantization + Huffman coding	Han et al.
2016	Binary Neural Networks — poids binaires {+1, -1}, ~32× compression
2018	INT8 Quantization — standard pour inférence (TensorRT, TFLite)
2020	GPTQ — quantization post-training pour LLMs (4-bit)	Frantar et al.
2022	SmoothQuant — quantization 8-bit sans perte, activations + poids	Xiao et al.
2023	AWQ (Activation-aware Weight Quantization) — meilleur que GPTQ	Lin et al.
2024	FP8 Training — NVIDIA H100/B200 natif, standard en 2026
2024	Pruning + LoRA — sparse fine-tuning, QLoRA

← Knowledge Distillation • 23 • Continual Learning →

ArtNotes

Explorateur

23 - Quantization & Pruning

Quantization & Pruning

Vue Graphique

Liens retour