Attaques Byzantines (Historique)

Le problème byzantin vient de l’informatique distribuée (voir History of Distributed Systems) : comment $n$ généraux peuvent-ils se mettre d’accord sur un plan de bataille quand $f$ d’entre eux sont des traîtres qui mentent délibérément ? Transposé au machine learning : comment agréger les gradients de $n$ workers quand $f$ d’entre eux envoient des vecteurs conçus pour faire échouer l’apprentissage — et qu’on ne sait pas lesquels ?

Blanchard et al. (2017) posent les fondations avec Krum. L’idée est élégante : plutôt que de moyenner tous les gradients (un seul traître suffit à tout détruire), on sélectionne le gradient le plus “central” — celui qui minimise la somme des distances à ses $n - f - 2$ plus proches voisins. Krum est un médoïde byzantin : il choisit un point réel du dataset, pas un point moyen. La condition de sécurité est $n \geq 2 f + 3$ .

Mais Krum a une faille cachée, révélée par El Mhamdi et al. (2018). En haute dimension ( $d \sim 1 0^{6}$ ), un attaquant peut ajouter un petit biais $ϵ$ sur chaque coordonnée. La distance euclidienne augmente de seulement $d \cdot ϵ$ — Krum ne voit rien. Mais l’erreur angulaire explose en $d \cdot ϵ$ — le modèle dévie massivement. C’est l’attaque dimensionnelle. Bulyan répond en deux étapes : (1) Krum itératif pour filtrer les grosses valeurs aberrantes, (2) Trimmed Mean coordonnée-par-coordonnée pour neutraliser l’attaque dimensionnelle. Coût : $n \geq 4 f + 1$ .

La course aux armements continue. LIE (Baruch et al., 2018) ajoute un bruit calibré sur la variance des gradients honnêtes — suffisamment petit pour ne pas être filtré, suffisamment grand pour déplacer la moyenne. SignGuard (Xu et al., 2023) contre-attaque en analysant la distribution des signes des gradients, pas seulement leurs magnitudes. Les attaques sur topologie émergent avec le Gossip Learning (Gaucher et al., 2024) — la structure du graphe de communication devient elle-même une surface d’attaque.

En 2025, Bareilles et al. introduisent le coefficient de robustesse $C (m, f, n)$ — la première métrique optimale pour quantifier la robustesse d’un agrégateur. MultiKrum ( $m > 1$ ) est prouvé strictement meilleur que Krum ( $m = 1$ ). La médiane géométrique, la Trimmed Mean, et la médiane coordonnée restent des problèmes ouverts pour le calcul de $C$ .

Lien thèse : C’est le cœur de ton sujet. Ta librairie automatise l’expérimentation de ces attaques et défenses. Voir Papers pour l’analyse détaillée de chaque papier, et Concepts pour les définitions formelles (GAR, médoïde, médiane géométrique).

← Federated Learning • 21 • Knowledge Distillation →

ArtNotes

Explorateur

21 - Attaques Byzantines (Historique)

Attaques Byzantines (Historique)

Vue Graphique

Liens retour