Bayesian Deep Learning
Un réseau de neurones classique donne une réponse — il ne dit pas à quel point il est certain de cette réponse. Le Bayesian Deep Learning attaque ce problème en remplaçant les poids ponctuels par des distributions de probabilité sur les poids. Au lieu de “le poids vaut 0.7”, on a "". L’incertitude du modèle devient mesurable.
Le problème est que l’inférence bayésienne exacte est computationnellement impossible pour des réseaux profonds — intégrer sur des millions de paramètres est un cauchemar. Les approximations sont donc nécessaires.
MC Dropout (Gal & Ghahramani, 2015) découvre un fait surprenant : le dropout, utilisé à l’inférence, approxime une inférence bayésienne. En faisant passes avant avec dropout actif et en moyennant les prédictions, on obtient une estimation de l’incertitude épistémique (due au manque de données). C’est simple mais coûteux en inférence.
Deep Ensembles (Lakshminarayanan et al., 2017) prennent l’approche la plus directe : entraîner modèles indépendants avec des initialisations différentes, et regarder leur dispersion. Étonnamment, cette méthode simple surpasse souvent les approximations bayésiennes plus sophistiquées.
SWAG (Maddox et al., 2019) capture la géométrie du bassin de convergence de SGD — la trajectoire des poids en fin d’entraînement forme une distribution gaussienne dont on peut échantillonner. Laplace Approximation (2022) fait du post-hoc : prendre un modèle déjà entraîné et approximer la distribution postérieure par une gaussienne autour de l’optimum.
Le Bayesian DL est crucial pour les applications à risque (médical, véhicules autonomes) où dire “je ne sais pas” est aussi important que donner la bonne réponse.
| Année | Contribution | Concept |
|---|---|---|
| 2015 | Bayesian CNN — incertitude sur les poids par Dropout (approximation) | Gal & Ghahramani |
| 2017 | SWAG — Stochastic Weight Averaging Gaussian | Maddox et al. |
| 2019 | Deep Ensembles — modèles, incertitude épistémique + aléatoire | Lakshminarayanan et al. |
| 2020 | MC Dropout — Dropout à l’inférence = approximation bayésienne | |
| 2022 | Laplace Approximation — post-hoc incertitude sur un modèle entraîné | Daxberger et al. |
← Geometric Deep Learning • 27 • Fonctions d’Activation →