Adversarial ML & Robustesse

En 2013, Ian Goodfellow fait une découverte troublante : ajouter une perturbation minuscule — invisible à l’œil humain — à l’image d’un panda suffit à faire classifier l’image comme “gibbon” avec 99% de confiance par un réseau pourtant state-of-the-art. Il baptise cette attaque FGSM (Fast Gradient Sign Method) : un seul pas dans la direction du gradient de la loss par rapport à l’entrée. Le deep learning est fondamentalement fragile.

Cette découverte ouvre un champ de recherche entier — et une course aux armements. Les attaquants développent des méthodes toujours plus puissantes (PGD, 2016, itère FGSM sur plusieurs pas avec projection), les défenseurs inventent des parades (adversarial training, 2017 : entraîner le modèle sur des exemples attaqués), et les attaquants contournent les parades (AutoAttack, 2019, automatise la sélection d’attaques sans hyperparamètres).

Le problème est profond. Madry et al. (2018) montrent que l’adversarial training sur PGD donne une robustesse garantie — mais au prix d’une perte de précision sur les données propres. TRADES (Zhang et al., 2019) formalise le compromis précision/robustesse comme un trade-off optimisable. RobustBench (2021) standardise l’évaluation, révélant que beaucoup de défenses “publiées” ne résistent pas à une évaluation rigoureuse.

La certification formelle (alpha-beta-CROWN, 2021) offre des garanties mathématiques plutôt qu’empiriques — on peut prouver qu’aucune perturbation de norme ne changera la prédiction, mais le coût computationnel est élevé.

Lien thèse : L’adversarial ML et la robustesse byzantine sont deux faces de la même pièce. L’adv ML corrompt les entrées d’un modèle ; les attaques byzantines corrompent les gradients d’un entraînement distribué. Les GARs (Krum, Bulyan) sont l’équivalent distribué de l’adversarial training — ils filtrent les contributions malveillantes pour préserver la convergence.

AnnéeContributionActeurs
2013Fast Gradient Sign Method (FGSM) — attaque one-step, limitation de la boîte noireGoodfellow et al.
2016PGD (Projected Gradient Descent) — attaque itérative multi-step, gold standardMadry et al.
2017Adversarial Training — entraîner avec des exemples adversariaux pour immuniserMadry et al.
2018TRADES — trade-off entre robustesse et précision naturelleZhang et al.
2019AutoAttack — benchmark automatique sans hyperparamètresCroce & Hein
2020ATTA — adversarial attacks sur Transformers
2021RobustBench — classement standardisé de la robustesseCroce et al.
2023Verification vs Attack — certification formelle (alpha-beta-CROWN) vs attaques

🔗 Lien thèse : Les GARs (Krum, Bulyan) sont une forme de robustesse contre des attaquants spécifiques (byzantins). L’adversarial ML classique se concentre sur la modification des entrées, la robustesse byzantine sur la modification des gradients.

← Datasets Fondamentaux19Federated Learning →