Knowledge Distillation

Un modèle de 175 milliards de paramètres ne peut pas tourner sur un téléphone. La knowledge distillation résout ce problème en transférant le savoir d’un grand modèle “professeur” vers un petit modèle “élève”.

L’idée de Hinton et al. (2015) est contre-intuitive : au lieu d’entraîner l’élève sur les labels durs (chat = 1, chien = 0), on l’entraîne sur les soft targets du professeur — les probabilités complètes de sortie (chat = 0.7, tigre = 0.2, chien = 0.1). Ces probabilités contiennent une “matière noire” informationnelle — les similarités entre classes que le professeur a apprises et que les labels durs écrasent. Un paramètre de température $τ$ contrôle le lissage de ces probabilités.

DistilBERT (2019) réduit BERT de 40% tout en gardant 97% de ses performances. TinyBERT (2019) va plus loin avec une distillation multi-étage (embedding, attention, hidden states). En 2022, la dataset distillation inverse le problème : au lieu de compresser le modèle, on condense le dataset entier en quelques centaines d’images synthétiques qui capturent toute son information.

La distillation a aussi trouvé une application inattendue : le self-distillation. Un modèle peut être son propre professeur — la version entraînée plus longtemps distille vers une version plus jeune, ou un sous-réseau apprend du réseau complet. BYOL et DINO exploitent ce principe.

Année	Contribution	Concept
2019	TinyBERT — distil BERT en gardant 97% performance
2020	DistilGPT-2 — distil un GPT-2 2× plus petit et plus rapide	Hugging Face
2021	Self-Distillation — l’élève apprend de lui-même (BYOL, DINO)
2022	Dataset Distillation — condenser un dataset entier en quelques images
2023	Distilling step-by-step — rationales + labels pour meilleure distillation

← Attaques Byzantines • 22 • Quantization & Pruning →

ArtNotes

Explorateur

22 - Knowledge Distillation

Knowledge Distillation

Vue Graphique

Liens retour