Quantization & Pruning

Un modèle entraîné en FP32 (32 bits par poids) gaspille une quantité colossale de précision — la plupart des poids pourraient être stockés en 8, 4, voire 2 bits sans perte significative. La quantization exploite cette redondance.

La quantization post-training (PTQ) convertit un modèle entraîné sans le ré-entraîner. INT8 devient le standard en 2018 (TensorRT, TFLite). GPTQ (Frantar et al., 2022) adapte la PTQ aux LLMs en corrigeant l’erreur de quantization couche par couche via une pseudo-inverse de Hessienne — un 175B devient 4-bit sans ré-entraînement.

SmoothQuant (Xiao et al., 2023) résout un problème spécifique aux LLMs : la distribution des activations est extrêmement asymétrique (quelques canaux ont des magnitudes 100× plus grandes). En transférant mathématiquement le “lissage” des activations vers les poids, la quantization 8-bit devient possible sans perte de qualité. AWQ (Lin et al., 2023) affine en ne protégeant que 1% des poids les plus importants tout en quantizant le reste.

En 2024, le FP8 devient natif sur le hardware (H100, B200) — plus besoin d’émuler la quantization, le GPU la supporte directement. Les LLMs de production tournent en INT4/FP8, et les modèles les plus récents (Llama 3, Mixtral) sont souvent déployés en 4-bit.

AnnéeContributionConcept
2015Deep Compression — pruning + quantization + Huffman codingHan et al.
2016Binary Neural Networks — poids binaires {+1, -1}, ~32× compression
2018INT8 Quantization — standard pour inférence (TensorRT, TFLite)
2020GPTQ — quantization post-training pour LLMs (4-bit)Frantar et al.
2022SmoothQuant — quantization 8-bit sans perte, activations + poidsXiao et al.
2023AWQ (Activation-aware Weight Quantization) — meilleur que GPTQLin et al.
2024FP8 Training — NVIDIA H100/B200 natif, standard en 2026
2024Pruning + LoRA — sparse fine-tuning, QLoRA

← Knowledge Distillation23Continual Learning →