Mixture of Experts (MoE)
Un LLM dense active tous ses paramètres pour chaque token. Un MoE active seulement une fraction — le routeur sélectionne les experts les plus pertinents. Résultat : un modèle de 141 milliards de paramètres (Mixtral 8×22B) ne coûte que 39 milliards de FLOPs par token, soit le coût d’un modèle 3.6× plus petit.
L’idée vient de Shazeer et al. (2017) avec le sparsely-gated MoE. Google l’industrialise avec GShard (2020) et Switch Transformer (2021). Mais c’est Mistral AI qui démocratise l’approche en 2023 avec Mixtral, un modèle MoE open-source sous licence Apache 2.0.
Le MoE est intrinsèquement distribué — chaque expert peut être placé sur un GPU différent. Voir History of Distributed Systems pour le parallélisme distribué. Le défi du MoE est le load balancing : si tous les tokens choisissent le même expert, les autres sont inutiles. La auxiliary loss pénalise ce comportement. DeepSeekMoE (2024) affine le concept avec des shared experts (toujours actifs) et des routed experts (sélectionnés par token), tandis que DeepSeek V3 (2025) pousse le MoE à l’échelle avec 671B paramètres totaux (37B actifs) et une Multi-head Latent Attention qui compresse le KV-cache d’un facteur 10×. DeepSeek V4 (2026) monte à 1.2T paramètres (52B actifs) avec MLA v2 et un routeur à granularité fine — 256 experts partagés dont 8 activés par token — atteignant la parité avec GPT-5.5 Pro pour un coût d’entraînement de ~$30M, toujours bien inférieur aux concurrents propriétaires. Llama 4 (Maverick, 2026) adopte également le MoE natif, confirmant que l’architecture MoE est devenue le standard pour les modèles >100B.
Lien thèse : Le MoE crée une hétérogénéité structurelle des gradients — chaque expert voit une distribution différente. Cela amplifie le dilemme du défenseur en apprentissage byzantin : distinguer un expert “rare mais légitime” d’un expert “empoisonné” devient encore plus difficile.
| Année | Contribution | Acteurs / Modèles |
|---|---|---|
| 2017 | Outrageously Large Neural Networks (MoE) — sparsely-gated MoE | Shazeer et al. (Google) |
| 2020 | GShard — MoE distribué pour traduction | Lepikhin et al. (Google) |
| 2021 | Switch Transformer — MoE simplifié (top-1 expert) | Fedus et al. (Google) |
| 2022 | ST-MoE — stable training de MoE (router z-loss) | Zoph et al. (Google) |
| 2023 | Mixtral 8×7B — Mistral MoE, 46B total, 12B actif par token | Mistral AI |
| 2024 | Mixtral 8×22B — 141B total, 39B actif | Mistral AI |
| 2024 | DeepSeekMoE — MoE fine-grained + shared experts | DeepSeek |
| 2024 | DBRX — MoE 132B, 36B actif, open-source | Databricks |
| 2024 | Qwen2-MoE — MoE avec auxillary loss repensée | Alibaba |
| 2025 | DeepSeek V3 — 671B, 37B actif, MLA | DeepSeek |
| 2026 | DeepSeek V4 — 1.2T, 52B actif (256 experts, top-8), MLA v2 | DeepSeek |
| 2026 | Llama 4 Maverick — MoE natif, routeur appris, 30T tokens | Meta |
Principe : Au lieu d’un feed-forward dense, on a experts (FFN). Un routeur sélectionne le top- experts par token. Le coût FLOPs est celui d’un modèle fois plus petit, mais la capacité de paramètres est celle de experts. Ratio FLOPs/paramètres idéal pour scaling.
Lien thèse : Le MoE introduit une hétérogénéité structurelle des gradients — chaque expert apprend des distributions différentes. Cela aggrave le dilemme du défenseur (non-IID) et peut être exploité par des attaquants byzantins.
← Parameter-Efficient Fine-Tuning • 37 • Hardware-Aware Algorithms →