Quantization & Pruning
Un modèle entraîné en FP32 (32 bits par poids) gaspille une quantité colossale de précision — la plupart des poids pourraient être stockés en 8, 4, voire 2 bits sans perte significative. La quantization exploite cette redondance.
La quantization post-training (PTQ) convertit un modèle entraîné sans le ré-entraîner. INT8 devient le standard en 2018 (TensorRT, TFLite). GPTQ (Frantar et al., 2022) adapte la PTQ aux LLMs en corrigeant l’erreur de quantization couche par couche via une pseudo-inverse de Hessienne — un 175B devient 4-bit sans ré-entraînement.
SmoothQuant (Xiao et al., 2023) résout un problème spécifique aux LLMs : la distribution des activations est extrêmement asymétrique (quelques canaux ont des magnitudes 100× plus grandes). En transférant mathématiquement le “lissage” des activations vers les poids, la quantization 8-bit devient possible sans perte de qualité. AWQ (Lin et al., 2023) affine en ne protégeant que 1% des poids les plus importants tout en quantizant le reste.
En 2024, le FP8 devient natif sur le hardware (H100, B200) — plus besoin d’émuler la quantization, le GPU la supporte directement. Les LLMs de production tournent en INT4/FP8, et les modèles les plus récents (Llama 3, Mixtral) sont souvent déployés en 4-bit.
| Année | Contribution | Concept |
|---|---|---|
| 2015 | Deep Compression — pruning + quantization + Huffman coding | Han et al. |
| 2016 | Binary Neural Networks — poids binaires {+1, -1}, ~32× compression | |
| 2018 | INT8 Quantization — standard pour inférence (TensorRT, TFLite) | |
| 2020 | GPTQ — quantization post-training pour LLMs (4-bit) | Frantar et al. |
| 2022 | SmoothQuant — quantization 8-bit sans perte, activations + poids | Xiao et al. |
| 2023 | AWQ (Activation-aware Weight Quantization) — meilleur que GPTQ | Lin et al. |
| 2024 | FP8 Training — NVIDIA H100/B200 natif, standard en 2026 | |
| 2024 | Pruning + LoRA — sparse fine-tuning, QLoRA |
← Knowledge Distillation • 23 • Continual Learning →