Optimisation : Évolution des Optimiseurs
Si la fonction de loss est la boussole, l’optimiseur est le moteur qui fait avancer le modèle vers le minimum. Pendant 60 ans, un seul algorithme a suffi : la descente de gradient stochastique (SGD). Simple, robuste, compréhensible — w = w - lr * grad. Mais le SGD a un défaut : le même taux d’apprentissage pour tous les paramètres, ce qui crée des oscillations dans les vallées étroites et ralentit la convergence sur les plateaux.
Le momentum (1986) ajoute une inertie — la mise à jour dépend des gradients passés, pas seulement du gradient courant. Le modèle “glisse” à travers les oscillations. Nesterov affine en anticipant la position future. Mais ces méthodes restent à pas fixe.
La révolution vient avec les optimiseurs adaptatifs. AdaGrad (2011) donne à chaque paramètre son propre taux d’apprentissage, inversement proportionnel à l’historique de ses gradients — idéal pour les features rares, mais le lr tend vers zéro trop vite. RMSProp (2012) corrige avec une moyenne mobile exponentielle qui évite l’écrasement. Adam (2014) combine les deux — momentum adaptatif + RMSProp — et devient instantanément le standard.
Mais Adam généralise moins bien que SGD. En fin d’entraînement, son comportement adaptatif peut le mener vers des minima moins plats (moins robustes). AdamW (2017) corrige un défaut subtil de l’implémentation du weight decay dans Adam, améliorant la généralisation sans sacrifier la convergence. Pour les très grands batchs (>8k), LAMB (2019) normalise par couche et permet l’entraînement de BERT en 76 minutes. LION (2023) découvre que ne garder que le signe du gradient adaptatif (sans la magnitude) est plus efficace — un pas binaire qui fonctionne étonnamment bien.
Règle empirique en 2026 : AdamW pour les Transformers et les LLMs, SGD + momentum pour les CNNs. LION est prometteur mais expérimental. Les modèles massifs (GPT-5.5 Pro, DeepSeek V4) utilisent des variantes d’AdamW avec schedule de learning rate cosinus et warmup linéaire.
| Optimiseur | Année | Concept clé | Limite |
|---|---|---|---|
| SGD | 1951 | Descente de gradient stochastique | Oscillations, pas fixe |
| SGD + Momentum | 1986 | Inertie pour accélérer et lisser | Hyperparamètre momentum |
| Nesterov (NAG) | 1983/2013 | Momentum avec anticipation | Peu d’avance en pratique |
| RMSProp | 2012 | Moyenne mobile du carré des gradients | Pas de momentum |
| Adam | 2014 | Momentum + RMSProp + bias correction | Généralise moins que SGD |
| AdamW | 2017 | Adam avec weight decay correct | Standard actuel |
| LAMB | 2019 | Adam + normalisation de layer pour batch large | BERT training |
| LION | 2023 | Sign(Adam) — moins de mémoire, plus rapide | Nouveau, pas encore standard |
Règle empirique : AdamW pour transformers, SGD + momentum pour CNNs.
← Hardware : La Révolution du Calcul • 09 • Normalisation & Régularisation →