Knowledge Distillation

Un modèle de 175 milliards de paramètres ne peut pas tourner sur un téléphone. La knowledge distillation résout ce problème en transférant le savoir d’un grand modèle “professeur” vers un petit modèle “élève”.

L’idée de Hinton et al. (2015) est contre-intuitive : au lieu d’entraîner l’élève sur les labels durs (chat = 1, chien = 0), on l’entraîne sur les soft targets du professeur — les probabilités complètes de sortie (chat = 0.7, tigre = 0.2, chien = 0.1). Ces probabilités contiennent une “matière noire” informationnelle — les similarités entre classes que le professeur a apprises et que les labels durs écrasent. Un paramètre de température contrôle le lissage de ces probabilités.

DistilBERT (2019) réduit BERT de 40% tout en gardant 97% de ses performances. TinyBERT (2019) va plus loin avec une distillation multi-étage (embedding, attention, hidden states). En 2022, la dataset distillation inverse le problème : au lieu de compresser le modèle, on condense le dataset entier en quelques centaines d’images synthétiques qui capturent toute son information.

La distillation a aussi trouvé une application inattendue : le self-distillation. Un modèle peut être son propre professeur — la version entraînée plus longtemps distille vers une version plus jeune, ou un sous-réseau apprend du réseau complet. BYOL et DINO exploitent ce principe.

AnnéeContributionConcept
2019TinyBERT — distil BERT en gardant 97% performance
2020DistilGPT-2 — distil un GPT-2 2× plus petit et plus rapideHugging Face
2021Self-Distillation — l’élève apprend de lui-même (BYOL, DINO)
2022Dataset Distillation — condenser un dataset entier en quelques images
2023Distilling step-by-step — rationales + labels pour meilleure distillation

← Attaques Byzantines22Quantization & Pruning →