Differential Privacy (Historique)

La confidentialité différentielle (Differential Privacy, DP) répond à une question fondamentale : comment entraîner un modèle sur des données sensibles sans révéler si une personne particulière était dans le dataset d’entraînement ?

Cynthia Dwork formalise le concept en 2006 : un algorithme est -différentiellement privé si sa sortie est statistiquement indiscernable, que les données de M. Dupont soient incluses ou non. La garantie est mathématique — pas heuristique.

DP-SGD (Abadi et al., Google, 2016) rend l’entraînement deep learning compatible avec DP : on clippe la norme de chaque gradient (pour limiter l’influence d’un individu) et on ajoute du bruit gaussien à la moyenne. Le prix à payer est un compromis utilité/confidentialité — plus est petit (plus privé), moins le modèle est précis.

En Federated Learning (2020), DP est appliqué au niveau du serveur d’agrégation : chaque client entraîne localement, le serveur n’agrège que des gradients bruités. DECOR (Allouah et al., 2022) va plus loin en environnement décentralisé avec du bruit gaussien corrélé qui s’annule deux à deux — confidentialité sans perte de précision.

Lien thèse : Il existe un conflit fondamental entre DP et robustesse byzantine. Le bruit DP rend les filtres comme Krum ou Bulyan aveugles — ils ne peuvent plus distinguer un gradient honnête bruité d’un gradient byzantin. Et la Secure Aggregation (SecAgg) cryptographique empêche totalement l’inspection individuelle des gradients. C’est le problème ouvert central du domaine.

AnnéeContributionConcept
2006-DP (Dwork et al.) — définition formelle :
2008DP + SGD — premier algorithme d’entraînement sous DP
2016DP-SGD — gradient clipping + Gaussian noiseAbadi et al. (Google)
2017PATE — Private Aggregation of Teacher EnsemblesPapernot et al.
2019Rényi DP — généralisation de -DP pour composition plus précise
2020DP-FedAvg — Federated Learning + DPMcMahan et al.
2021Fenchel-DP — DP sans subsampling, pour petits datasets
2022DECOR — DP décentralisé, bruit corrélé qui s’annuleAllouah et al.
2023DP + LLMs — DP fine-tuning de modèles de langage
2024Apple DP — Apple Private Cloud Compute, pour iCloud

🔗 Lien thèse : Confidentialité vs Robustesse — le conflit central entre DP et détection byzantine. Le bruit DP rend les GARs aveugles.

← Open Source AI Movement40Reproducibilité & Experiment Tracking →