Continual Learning
Le deep learning classique a un défaut majeur : quand on entraîne un modèle sur une nouvelle tâche, il oublie les tâches précédentes. C’est l’oubli catastrophique — la distribution des poids est écrasée par les nouveaux gradients. Un humain qui apprend l’espagnol n’oublie pas le français ; un réseau de neurones, si.
Elastic Weight Consolidation (EWC) (Kirkpatrick et al., DeepMind, 2016) est la première solution élégante : on estime l’importance de chaque poids pour les tâches précédentes via la matrice d’information de Fisher, et on pénalise les déviations proportionnellement à cette importance. Les poids “essentiels” sont protégés ; les poids “superflus” sont libres de s’adapter.
Une famille d’approches utilise le replay : stocker un sous-ensemble des données anciennes et les réinjecter pendant l’entraînement sur la nouvelle tâche. Le experience replay (2019) est simple mais nécessite de la mémoire. Le generative replay utilise un modèle génératif pour “rêver” des exemples passés — pas de stockage, mais la qualité des rêves dégrade.
Learning without Forgetting (LwF) (2017) utilise la distillation : la sortie du modèle sur l’ancienne tâche sert de soft target pour le modèle en cours d’entraînement. Pas de données anciennes, pas de mémoire additionnelle — juste un signal de rappel.
En 2023, le continual learning rencontre les LLMs : le continual pre-training permet d’étendre un modèle de langage à un nouveau domaine (médecine, droit) sans ré-entraîner depuis zéro. Le problème de l’oubli devient un enjeu industriel — personne ne veut ré-entraîner GPT-5.5 Pro ou DeepSeek V4 tous les six mois.
| Année | Contribution | Concept |
|---|---|---|
| 2016 | EWC (Elastic Weight Consolidation) — poids importants protégés | Kirkpatrick et al. (DeepMind) |
| 2017 | Progressive Networks — nouveaux réseaux pour chaque tâche | |
| 2019 | Replay / Experience Replay — rejouer des données anciennes | |
| 2020 | Avalanche — framework open-source pour continual learning | Carta et al. |
| 2022 | Learning without Forgetting (LwF) — distillation sur tâche précédente | |
| 2023 | Continual Pre-training — adapter LLMs à des domaines nouveaux sans tout ré-entraîner |
← Quantization & Pruning • 24 • Causal Machine Learning →