Optimisation : Évolution des Optimiseurs

Si la fonction de loss est la boussole, l’optimiseur est le moteur qui fait avancer le modèle vers le minimum. Pendant 60 ans, un seul algorithme a suffi : la descente de gradient stochastique (SGD). Simple, robuste, compréhensible — w = w - lr * grad. Mais le SGD a un défaut : le même taux d’apprentissage pour tous les paramètres, ce qui crée des oscillations dans les vallées étroites et ralentit la convergence sur les plateaux.

Le momentum (1986) ajoute une inertie — la mise à jour dépend des gradients passés, pas seulement du gradient courant. Le modèle “glisse” à travers les oscillations. Nesterov affine en anticipant la position future. Mais ces méthodes restent à pas fixe.

La révolution vient avec les optimiseurs adaptatifs. AdaGrad (2011) donne à chaque paramètre son propre taux d’apprentissage, inversement proportionnel à l’historique de ses gradients — idéal pour les features rares, mais le lr tend vers zéro trop vite. RMSProp (2012) corrige avec une moyenne mobile exponentielle qui évite l’écrasement. Adam (2014) combine les deux — momentum adaptatif + RMSProp — et devient instantanément le standard.

Mais Adam généralise moins bien que SGD. En fin d’entraînement, son comportement adaptatif peut le mener vers des minima moins plats (moins robustes). AdamW (2017) corrige un défaut subtil de l’implémentation du weight decay dans Adam, améliorant la généralisation sans sacrifier la convergence. Pour les très grands batchs (>8k), LAMB (2019) normalise par couche et permet l’entraînement de BERT en 76 minutes. LION (2023) découvre que ne garder que le signe du gradient adaptatif (sans la magnitude) est plus efficace — un pas binaire qui fonctionne étonnamment bien.

Règle empirique en 2026 : AdamW pour les Transformers et les LLMs, SGD + momentum pour les CNNs. LION est prometteur mais expérimental. Les modèles massifs (GPT-5.5 Pro, DeepSeek V4) utilisent des variantes d’AdamW avec schedule de learning rate cosinus et warmup linéaire.

Optimiseur	Année	Concept clé	Limite
SGD	1951	Descente de gradient stochastique	Oscillations, pas fixe
SGD + Momentum	1986	Inertie pour accélérer et lisser	Hyperparamètre momentum
Nesterov (NAG)	1983/2013	Momentum avec anticipation	Peu d’avance en pratique
RMSProp	2012	Moyenne mobile du carré des gradients	Pas de momentum
Adam	2014	Momentum + RMSProp + bias correction	Généralise moins que SGD
AdamW	2017	Adam avec weight decay correct	Standard actuel
LAMB	2019	Adam + normalisation de layer pour batch large	BERT training
LION	2023	Sign(Adam) — moins de mémoire, plus rapide	Nouveau, pas encore standard

Règle empirique : AdamW pour transformers, SGD + momentum pour CNNs.

← Hardware : La Révolution du Calcul • 09 • Normalisation & Régularisation →

ArtNotes

Explorateur

09 - Optimisation — Évolution des Optimiseurs

Optimisation : Évolution des Optimiseurs

Vue Graphique

Liens retour