Knowledge Distillation
Un modèle de 175 milliards de paramètres ne peut pas tourner sur un téléphone. La knowledge distillation résout ce problème en transférant le savoir d’un grand modèle “professeur” vers un petit modèle “élève”.
L’idée de Hinton et al. (2015) est contre-intuitive : au lieu d’entraîner l’élève sur les labels durs (chat = 1, chien = 0), on l’entraîne sur les soft targets du professeur — les probabilités complètes de sortie (chat = 0.7, tigre = 0.2, chien = 0.1). Ces probabilités contiennent une “matière noire” informationnelle — les similarités entre classes que le professeur a apprises et que les labels durs écrasent. Un paramètre de température contrôle le lissage de ces probabilités.
DistilBERT (2019) réduit BERT de 40% tout en gardant 97% de ses performances. TinyBERT (2019) va plus loin avec une distillation multi-étage (embedding, attention, hidden states). En 2022, la dataset distillation inverse le problème : au lieu de compresser le modèle, on condense le dataset entier en quelques centaines d’images synthétiques qui capturent toute son information.
La distillation a aussi trouvé une application inattendue : le self-distillation. Un modèle peut être son propre professeur — la version entraînée plus longtemps distille vers une version plus jeune, ou un sous-réseau apprend du réseau complet. BYOL et DINO exploitent ce principe.
| Année | Contribution | Concept |
|---|---|---|
| 2019 | TinyBERT — distil BERT en gardant 97% performance | |
| 2020 | DistilGPT-2 — distil un GPT-2 2× plus petit et plus rapide | Hugging Face |
| 2021 | Self-Distillation — l’élève apprend de lui-même (BYOL, DINO) | |
| 2022 | Dataset Distillation — condenser un dataset entier en quelques images | |
| 2023 | Distilling step-by-step — rationales + labels pour meilleure distillation |
← Attaques Byzantines • 22 • Quantization & Pruning →