Mixture of Experts (MoE)

Un LLM dense active tous ses paramètres pour chaque token. Un MoE active seulement une fraction — le routeur sélectionne les experts les plus pertinents. Résultat : un modèle de 141 milliards de paramètres (Mixtral 8×22B) ne coûte que 39 milliards de FLOPs par token, soit le coût d’un modèle 3.6× plus petit.

L’idée vient de Shazeer et al. (2017) avec le sparsely-gated MoE. Google l’industrialise avec GShard (2020) et Switch Transformer (2021). Mais c’est Mistral AI qui démocratise l’approche en 2023 avec Mixtral, un modèle MoE open-source sous licence Apache 2.0.

Le MoE est intrinsèquement distribué — chaque expert peut être placé sur un GPU différent. Voir History of Distributed Systems pour le parallélisme distribué. Le défi du MoE est le load balancing : si tous les tokens choisissent le même expert, les autres sont inutiles. La auxiliary loss pénalise ce comportement. DeepSeekMoE (2024) affine le concept avec des shared experts (toujours actifs) et des routed experts (sélectionnés par token), tandis que DeepSeek V3 (2025) pousse le MoE à l’échelle avec 671B paramètres totaux (37B actifs) et une Multi-head Latent Attention qui compresse le KV-cache d’un facteur 10×. DeepSeek V4 (2026) monte à 1.2T paramètres (52B actifs) avec MLA v2 et un routeur à granularité fine — 256 experts partagés dont 8 activés par token — atteignant la parité avec GPT-5.5 Pro pour un coût d’entraînement de ~$30M, toujours bien inférieur aux concurrents propriétaires. Llama 4 (Maverick, 2026) adopte également le MoE natif, confirmant que l’architecture MoE est devenue le standard pour les modèles >100B.

Lien thèse : Le MoE crée une hétérogénéité structurelle des gradients — chaque expert voit une distribution différente. Cela amplifie le dilemme du défenseur en apprentissage byzantin : distinguer un expert “rare mais légitime” d’un expert “empoisonné” devient encore plus difficile.

Année	Contribution	Acteurs / Modèles
2017	Outrageously Large Neural Networks (MoE) — sparsely-gated MoE	Shazeer et al. (Google)
2020	GShard — MoE distribué pour traduction	Lepikhin et al. (Google)
2021	Switch Transformer — MoE simplifié (top-1 expert)	Fedus et al. (Google)
2022	ST-MoE — stable training de MoE (router z-loss)	Zoph et al. (Google)
2023	Mixtral 8×7B — Mistral MoE, 46B total, 12B actif par token	Mistral AI
2024	Mixtral 8×22B — 141B total, 39B actif	Mistral AI
2024	DeepSeekMoE — MoE fine-grained + shared experts	DeepSeek
2024	DBRX — MoE 132B, 36B actif, open-source	Databricks
2024	Qwen2-MoE — MoE avec auxillary loss repensée	Alibaba
2025	DeepSeek V3 — 671B, 37B actif, MLA	DeepSeek
2026	DeepSeek V4 — 1.2T, 52B actif (256 experts, top-8), MLA v2	DeepSeek
2026	Llama 4 Maverick — MoE natif, routeur appris, 30T tokens	Meta

Principe : Au lieu d’un feed-forward dense, on a $E$ experts (FFN). Un routeur sélectionne le top- $k$ experts par token. Le coût FLOPs est celui d’un modèle $k / E$ fois plus petit, mais la capacité de paramètres est celle de $E$ experts. Ratio FLOPs/paramètres idéal pour scaling.

Lien thèse : Le MoE introduit une hétérogénéité structurelle des gradients — chaque expert apprend des distributions différentes. Cela aggrave le dilemme du défenseur (non-IID) et peut être exploité par des attaquants byzantins.

← Parameter-Efficient Fine-Tuning • 37 • Hardware-Aware Algorithms →

ArtNotes

Explorateur

37 - Mixture of Experts (MoE)

Mixture of Experts (MoE)

Vue Graphique

Liens retour