Bayesian Deep Learning

Un réseau de neurones classique donne une réponse — il ne dit pas à quel point il est certain de cette réponse. Le Bayesian Deep Learning attaque ce problème en remplaçant les poids ponctuels par des distributions de probabilité sur les poids. Au lieu de “le poids vaut 0.7”, on a " $w \sim N (0.7, 0.1)$ ". L’incertitude du modèle devient mesurable.

Le problème est que l’inférence bayésienne exacte est computationnellement impossible pour des réseaux profonds — intégrer sur des millions de paramètres est un cauchemar. Les approximations sont donc nécessaires.

MC Dropout (Gal & Ghahramani, 2015) découvre un fait surprenant : le dropout, utilisé à l’inférence, approxime une inférence bayésienne. En faisant $N$ passes avant avec dropout actif et en moyennant les prédictions, on obtient une estimation de l’incertitude épistémique (due au manque de données). C’est simple mais coûteux en inférence.

Deep Ensembles (Lakshminarayanan et al., 2017) prennent l’approche la plus directe : entraîner $N$ modèles indépendants avec des initialisations différentes, et regarder leur dispersion. Étonnamment, cette méthode simple surpasse souvent les approximations bayésiennes plus sophistiquées.

SWAG (Maddox et al., 2019) capture la géométrie du bassin de convergence de SGD — la trajectoire des poids en fin d’entraînement forme une distribution gaussienne dont on peut échantillonner. Laplace Approximation (2022) fait du post-hoc : prendre un modèle déjà entraîné et approximer la distribution postérieure par une gaussienne autour de l’optimum.

Le Bayesian DL est crucial pour les applications à risque (médical, véhicules autonomes) où dire “je ne sais pas” est aussi important que donner la bonne réponse.

Année	Contribution	Concept
2015	Bayesian CNN — incertitude sur les poids par Dropout (approximation)	Gal & Ghahramani
2017	SWAG — Stochastic Weight Averaging Gaussian	Maddox et al.
2019	Deep Ensembles — $N$ modèles, incertitude épistémique + aléatoire	Lakshminarayanan et al.
2020	MC Dropout — Dropout à l’inférence = approximation bayésienne
2022	Laplace Approximation — post-hoc incertitude sur un modèle entraîné	Daxberger et al.

← Geometric Deep Learning • 27 • Fonctions d’Activation →

ArtNotes

Explorateur

27 - Bayesian Deep Learning

Bayesian Deep Learning

Vue Graphique

Liens retour