Optimisation : Évolution des Optimiseurs

Si la fonction de loss est la boussole, l’optimiseur est le moteur qui fait avancer le modèle vers le minimum. Pendant 60 ans, un seul algorithme a suffi : la descente de gradient stochastique (SGD). Simple, robuste, compréhensible — w = w - lr * grad. Mais le SGD a un défaut : le même taux d’apprentissage pour tous les paramètres, ce qui crée des oscillations dans les vallées étroites et ralentit la convergence sur les plateaux.

Le momentum (1986) ajoute une inertie — la mise à jour dépend des gradients passés, pas seulement du gradient courant. Le modèle “glisse” à travers les oscillations. Nesterov affine en anticipant la position future. Mais ces méthodes restent à pas fixe.

La révolution vient avec les optimiseurs adaptatifs. AdaGrad (2011) donne à chaque paramètre son propre taux d’apprentissage, inversement proportionnel à l’historique de ses gradients — idéal pour les features rares, mais le lr tend vers zéro trop vite. RMSProp (2012) corrige avec une moyenne mobile exponentielle qui évite l’écrasement. Adam (2014) combine les deux — momentum adaptatif + RMSProp — et devient instantanément le standard.

Mais Adam généralise moins bien que SGD. En fin d’entraînement, son comportement adaptatif peut le mener vers des minima moins plats (moins robustes). AdamW (2017) corrige un défaut subtil de l’implémentation du weight decay dans Adam, améliorant la généralisation sans sacrifier la convergence. Pour les très grands batchs (>8k), LAMB (2019) normalise par couche et permet l’entraînement de BERT en 76 minutes. LION (2023) découvre que ne garder que le signe du gradient adaptatif (sans la magnitude) est plus efficace — un pas binaire qui fonctionne étonnamment bien.

Règle empirique en 2026 : AdamW pour les Transformers et les LLMs, SGD + momentum pour les CNNs. LION est prometteur mais expérimental. Les modèles massifs (GPT-5.5 Pro, DeepSeek V4) utilisent des variantes d’AdamW avec schedule de learning rate cosinus et warmup linéaire.

OptimiseurAnnéeConcept cléLimite
SGD1951Descente de gradient stochastiqueOscillations, pas fixe
SGD + Momentum1986Inertie pour accélérer et lisserHyperparamètre momentum
Nesterov (NAG)1983/2013Momentum avec anticipationPeu d’avance en pratique
RMSProp2012Moyenne mobile du carré des gradientsPas de momentum
Adam2014Momentum + RMSProp + bias correctionGénéralise moins que SGD
AdamW2017Adam avec weight decay correctStandard actuel
LAMB2019Adam + normalisation de layer pour batch largeBERT training
LION2023Sign(Adam) — moins de mémoire, plus rapideNouveau, pas encore standard

Règle empirique : AdamW pour transformers, SGD + momentum pour CNNs.

← Hardware : La Révolution du Calcul09Normalisation & Régularisation →