Fonctions d’Activation
Sans fonction d’activation non-linéaire, un réseau de neurones n’est qu’une régression linéaire — quelle que soit sa profondeur. La fonction d’activation est ce qui donne au réseau sa capacité à modéliser des fonctions arbitrairement complexes.
Pendant des décennies, le sigmoid et le tanh règnent. Mais ces fonctions saturent : pour des valeurs extrêmes, leur dérivée tend vers zéro. Le gradient ne se propage plus à travers les couches profondes — c’est le vanishing gradient.
ReLU (2010) résout ce problème avec une simplicité désarmante : . Sa dérivée est 0 ou 1 — pas de saturation. AlexNet l’utilise en 2012, et ReLU devient le standard. Mais il a un défaut : le dying ReLU, où les neurones à gradient 0 ne se réveillent jamais.
Le GELU (2016) lisse le ReLU en le multipliant par la CDF d’une gaussienne — c’est la fonction utilisée par BERT et GPT. En 2020, la famille GLU (Gated Linear Unit) introduit un mécanisme de porte qui contrôle le flux d’information : . PaLM, Llama, Mistral, DeepSeek, GPT-5+ — SwiGLU est le standard 2026 pour les LLMs.
| Fonction | Année | Formule | Propriétés |
|---|---|---|---|
| Tanh | — | Centré en 0, mais sature toujours | |
| ReLU | 2010 | ; | Résout vanishing gradient, mais dying ReLU |
| Leaky ReLU | 2013 | avec | Évite dying ReLU |
| ELU | 2015 | Lisse, moyenne proche de 0 | |
| SELU | 2017 | , , | Auto-normalisante (maintient , ) |
| Swish / SiLU | 2017 | Lisse, non-monotone, pas de dying ReLU | |
| GELU | 2016 | Standard Transformers (BERT, GPT) | |
| ReGLU | 2020 | Gated variant avec ReLU | |
| GeGLU | 2020 | Gated variant avec GELU |
← Bayesian Deep Learning • 30 • Fonctions de Loss →