Fonctions d’Activation

Sans fonction d’activation non-linéaire, un réseau de neurones n’est qu’une régression linéaire — quelle que soit sa profondeur. La fonction d’activation est ce qui donne au réseau sa capacité à modéliser des fonctions arbitrairement complexes.

Pendant des décennies, le sigmoid et le tanh règnent. Mais ces fonctions saturent : pour des valeurs extrêmes, leur dérivée tend vers zéro. Le gradient ne se propage plus à travers les couches profondes — c’est le vanishing gradient.

ReLU (2010) résout ce problème avec une simplicité désarmante : . Sa dérivée est 0 ou 1 — pas de saturation. AlexNet l’utilise en 2012, et ReLU devient le standard. Mais il a un défaut : le dying ReLU, où les neurones à gradient 0 ne se réveillent jamais.

Le GELU (2016) lisse le ReLU en le multipliant par la CDF d’une gaussienne — c’est la fonction utilisée par BERT et GPT. En 2020, la famille GLU (Gated Linear Unit) introduit un mécanisme de porte qui contrôle le flux d’information : . PaLM, Llama, Mistral, DeepSeek, GPT-5+ — SwiGLU est le standard 2026 pour les LLMs.

FonctionAnnéeFormulePropriétés
TanhCentré en 0, mais sature toujours
ReLU2010 ; Résout vanishing gradient, mais dying ReLU
Leaky ReLU2013 avec Évite dying ReLU
ELU2015Lisse, moyenne proche de 0
SELU2017 , , Auto-normalisante (maintient , )
Swish / SiLU2017Lisse, non-monotone, pas de dying ReLU
GELU2016Standard Transformers (BERT, GPT)
ReGLU2020Gated variant avec ReLU
GeGLU2020Gated variant avec GELU

← Bayesian Deep Learning30Fonctions de Loss →