Adversarial ML & Robustesse

En 2013, Ian Goodfellow fait une découverte troublante : ajouter une perturbation minuscule — invisible à l’œil humain — à l’image d’un panda suffit à faire classifier l’image comme “gibbon” avec 99% de confiance par un réseau pourtant state-of-the-art. Il baptise cette attaque FGSM (Fast Gradient Sign Method) : un seul pas dans la direction du gradient de la loss par rapport à l’entrée. Le deep learning est fondamentalement fragile.

Cette découverte ouvre un champ de recherche entier — et une course aux armements. Les attaquants développent des méthodes toujours plus puissantes (PGD, 2016, itère FGSM sur plusieurs pas avec projection), les défenseurs inventent des parades (adversarial training, 2017 : entraîner le modèle sur des exemples attaqués), et les attaquants contournent les parades (AutoAttack, 2019, automatise la sélection d’attaques sans hyperparamètres).

Le problème est profond. Madry et al. (2018) montrent que l’adversarial training sur PGD donne une robustesse garantie — mais au prix d’une perte de précision sur les données propres. TRADES (Zhang et al., 2019) formalise le compromis précision/robustesse comme un trade-off optimisable. RobustBench (2021) standardise l’évaluation, révélant que beaucoup de défenses “publiées” ne résistent pas à une évaluation rigoureuse.

La certification formelle (alpha-beta-CROWN, 2021) offre des garanties mathématiques plutôt qu’empiriques — on peut prouver qu’aucune perturbation de norme $ϵ$ ne changera la prédiction, mais le coût computationnel est élevé.

Lien thèse : L’adversarial ML et la robustesse byzantine sont deux faces de la même pièce. L’adv ML corrompt les entrées d’un modèle ; les attaques byzantines corrompent les gradients d’un entraînement distribué. Les GARs (Krum, Bulyan) sont l’équivalent distribué de l’adversarial training — ils filtrent les contributions malveillantes pour préserver la convergence.

Année	Contribution	Acteurs
2013	Fast Gradient Sign Method (FGSM) — attaque one-step, limitation de la boîte noire	Goodfellow et al.
2016	PGD (Projected Gradient Descent) — attaque itérative multi-step, gold standard	Madry et al.
2017	Adversarial Training — entraîner avec des exemples adversariaux pour immuniser	Madry et al.
2018	TRADES — trade-off entre robustesse et précision naturelle	Zhang et al.
2019	AutoAttack — benchmark automatique sans hyperparamètres	Croce & Hein
2020	ATTA — adversarial attacks sur Transformers
2021	RobustBench — classement standardisé de la robustesse	Croce et al.
2023	Verification vs Attack — certification formelle (alpha-beta-CROWN) vs attaques

🔗 Lien thèse : Les GARs (Krum, Bulyan) sont une forme de robustesse contre des attaquants spécifiques (byzantins). L’adversarial ML classique se concentre sur la modification des entrées, la robustesse byzantine sur la modification des gradients.

← Datasets Fondamentaux • 19 • Federated Learning →

ArtNotes

Explorateur

19 - Adversarial ML & Robustesse

Adversarial ML & Robustesse

Vue Graphique

Liens retour