Differential Privacy (Historique)
La confidentialité différentielle (Differential Privacy, DP) répond à une question fondamentale : comment entraîner un modèle sur des données sensibles sans révéler si une personne particulière était dans le dataset d’entraînement ?
Cynthia Dwork formalise le concept en 2006 : un algorithme est -différentiellement privé si sa sortie est statistiquement indiscernable, que les données de M. Dupont soient incluses ou non. La garantie est mathématique — pas heuristique.
DP-SGD (Abadi et al., Google, 2016) rend l’entraînement deep learning compatible avec DP : on clippe la norme de chaque gradient (pour limiter l’influence d’un individu) et on ajoute du bruit gaussien à la moyenne. Le prix à payer est un compromis utilité/confidentialité — plus est petit (plus privé), moins le modèle est précis.
En Federated Learning (2020), DP est appliqué au niveau du serveur d’agrégation : chaque client entraîne localement, le serveur n’agrège que des gradients bruités. DECOR (Allouah et al., 2022) va plus loin en environnement décentralisé avec du bruit gaussien corrélé qui s’annule deux à deux — confidentialité sans perte de précision.
Lien thèse : Il existe un conflit fondamental entre DP et robustesse byzantine. Le bruit DP rend les filtres comme Krum ou Bulyan aveugles — ils ne peuvent plus distinguer un gradient honnête bruité d’un gradient byzantin. Et la Secure Aggregation (SecAgg) cryptographique empêche totalement l’inspection individuelle des gradients. C’est le problème ouvert central du domaine.
| Année | Contribution | Concept |
|---|---|---|
| 2006 | -DP (Dwork et al.) — définition formelle : | |
| 2008 | DP + SGD — premier algorithme d’entraînement sous DP | |
| 2016 | DP-SGD — gradient clipping + Gaussian noise | Abadi et al. (Google) |
| 2017 | PATE — Private Aggregation of Teacher Ensembles | Papernot et al. |
| 2019 | Rényi DP — généralisation de -DP pour composition plus précise | |
| 2020 | DP-FedAvg — Federated Learning + DP | McMahan et al. |
| 2021 | Fenchel-DP — DP sans subsampling, pour petits datasets | |
| 2022 | DECOR — DP décentralisé, bruit corrélé qui s’annule | Allouah et al. |
| 2023 | DP + LLMs — DP fine-tuning de modèles de langage | |
| 2024 | Apple DP — Apple Private Cloud Compute, pour iCloud |
🔗 Lien thèse : Confidentialité vs Robustesse — le conflit central entre DP et détection byzantine. Le bruit DP rend les GARs aveugles.
← Open Source AI Movement • 40 • Reproducibilité & Experiment Tracking →