Bayesian Deep Learning

Un réseau de neurones classique donne une réponse — il ne dit pas à quel point il est certain de cette réponse. Le Bayesian Deep Learning attaque ce problème en remplaçant les poids ponctuels par des distributions de probabilité sur les poids. Au lieu de “le poids vaut 0.7”, on a "". L’incertitude du modèle devient mesurable.

Le problème est que l’inférence bayésienne exacte est computationnellement impossible pour des réseaux profonds — intégrer sur des millions de paramètres est un cauchemar. Les approximations sont donc nécessaires.

MC Dropout (Gal & Ghahramani, 2015) découvre un fait surprenant : le dropout, utilisé à l’inférence, approxime une inférence bayésienne. En faisant passes avant avec dropout actif et en moyennant les prédictions, on obtient une estimation de l’incertitude épistémique (due au manque de données). C’est simple mais coûteux en inférence.

Deep Ensembles (Lakshminarayanan et al., 2017) prennent l’approche la plus directe : entraîner modèles indépendants avec des initialisations différentes, et regarder leur dispersion. Étonnamment, cette méthode simple surpasse souvent les approximations bayésiennes plus sophistiquées.

SWAG (Maddox et al., 2019) capture la géométrie du bassin de convergence de SGD — la trajectoire des poids en fin d’entraînement forme une distribution gaussienne dont on peut échantillonner. Laplace Approximation (2022) fait du post-hoc : prendre un modèle déjà entraîné et approximer la distribution postérieure par une gaussienne autour de l’optimum.

Le Bayesian DL est crucial pour les applications à risque (médical, véhicules autonomes) où dire “je ne sais pas” est aussi important que donner la bonne réponse.

AnnéeContributionConcept
2015Bayesian CNN — incertitude sur les poids par Dropout (approximation)Gal & Ghahramani
2017SWAG — Stochastic Weight Averaging GaussianMaddox et al.
2019Deep Ensembles modèles, incertitude épistémique + aléatoireLakshminarayanan et al.
2020MC Dropout — Dropout à l’inférence = approximation bayésienne
2022Laplace Approximation — post-hoc incertitude sur un modèle entraînéDaxberger et al.

← Geometric Deep Learning27Fonctions d’Activation →