Continual Learning

Le deep learning classique a un défaut majeur : quand on entraîne un modèle sur une nouvelle tâche, il oublie les tâches précédentes. C’est l’oubli catastrophique — la distribution des poids est écrasée par les nouveaux gradients. Un humain qui apprend l’espagnol n’oublie pas le français ; un réseau de neurones, si.

Elastic Weight Consolidation (EWC) (Kirkpatrick et al., DeepMind, 2016) est la première solution élégante : on estime l’importance de chaque poids pour les tâches précédentes via la matrice d’information de Fisher, et on pénalise les déviations proportionnellement à cette importance. Les poids “essentiels” sont protégés ; les poids “superflus” sont libres de s’adapter.

Une famille d’approches utilise le replay : stocker un sous-ensemble des données anciennes et les réinjecter pendant l’entraînement sur la nouvelle tâche. Le experience replay (2019) est simple mais nécessite de la mémoire. Le generative replay utilise un modèle génératif pour “rêver” des exemples passés — pas de stockage, mais la qualité des rêves dégrade.

Learning without Forgetting (LwF) (2017) utilise la distillation : la sortie du modèle sur l’ancienne tâche sert de soft target pour le modèle en cours d’entraînement. Pas de données anciennes, pas de mémoire additionnelle — juste un signal de rappel.

En 2023, le continual learning rencontre les LLMs : le continual pre-training permet d’étendre un modèle de langage à un nouveau domaine (médecine, droit) sans ré-entraîner depuis zéro. Le problème de l’oubli devient un enjeu industriel — personne ne veut ré-entraîner GPT-5.5 Pro ou DeepSeek V4 tous les six mois.

AnnéeContributionConcept
2016EWC (Elastic Weight Consolidation) — poids importants protégésKirkpatrick et al. (DeepMind)
2017Progressive Networks — nouveaux réseaux pour chaque tâche
2019Replay / Experience Replay — rejouer des données anciennes
2020Avalanche — framework open-source pour continual learningCarta et al.
2022Learning without Forgetting (LwF) — distillation sur tâche précédente
2023Continual Pre-training — adapter LLMs à des domaines nouveaux sans tout ré-entraîner

← Quantization & Pruning24Causal Machine Learning →