Differential Privacy (Historique)

La confidentialité différentielle (Differential Privacy, DP) répond à une question fondamentale : comment entraîner un modèle sur des données sensibles sans révéler si une personne particulière était dans le dataset d’entraînement ?

Cynthia Dwork formalise le concept en 2006 : un algorithme est $ϵ$ -différentiellement privé si sa sortie est statistiquement indiscernable, que les données de M. Dupont soient incluses ou non. La garantie est mathématique — pas heuristique.

DP-SGD (Abadi et al., Google, 2016) rend l’entraînement deep learning compatible avec DP : on clippe la norme de chaque gradient (pour limiter l’influence d’un individu) et on ajoute du bruit gaussien à la moyenne. Le prix à payer est un compromis utilité/confidentialité — plus $ϵ$ est petit (plus privé), moins le modèle est précis.

En Federated Learning (2020), DP est appliqué au niveau du serveur d’agrégation : chaque client entraîne localement, le serveur n’agrège que des gradients bruités. DECOR (Allouah et al., 2022) va plus loin en environnement décentralisé avec du bruit gaussien corrélé qui s’annule deux à deux — confidentialité sans perte de précision.

Lien thèse : Il existe un conflit fondamental entre DP et robustesse byzantine. Le bruit DP rend les filtres comme Krum ou Bulyan aveugles — ils ne peuvent plus distinguer un gradient honnête bruité d’un gradient byzantin. Et la Secure Aggregation (SecAgg) cryptographique empêche totalement l’inspection individuelle des gradients. C’est le problème ouvert central du domaine.

Année	Contribution	Concept
2006	$ϵ$ -DP (Dwork et al.) — définition formelle : $M (D) \approx_{ϵ} M (D^{'})$
2008	DP + SGD — premier algorithme d’entraînement sous DP
2016	DP-SGD — gradient clipping + Gaussian noise	Abadi et al. (Google)
2017	PATE — Private Aggregation of Teacher Ensembles	Papernot et al.
2019	Rényi DP — généralisation de $ϵ$ -DP pour composition plus précise
2020	DP-FedAvg — Federated Learning + DP	McMahan et al.
2021	Fenchel-DP — DP sans subsampling, pour petits datasets
2022	DECOR — DP décentralisé, bruit corrélé qui s’annule	Allouah et al.
2023	DP + LLMs — DP fine-tuning de modèles de langage
2024	Apple DP — Apple Private Cloud Compute, $(ϵ \approx 0)$ pour iCloud

🔗 Lien thèse : Confidentialité vs Robustesse — le conflit central entre DP et détection byzantine. Le bruit DP rend les GARs aveugles.

← Open Source AI Movement • 40 • Reproducibilité & Experiment Tracking →

ArtNotes

Explorateur

40 - Differential Privacy (Historique)

Differential Privacy (Historique)

Vue Graphique

Liens retour