ML Distribué & Ère Moderne (2016–aujourd’hui)
L’entraînement des modèles de deep learning dépasse rapidement la capacité d’un seul GPU. Les systèmes distribués deviennent une brique essentielle du ML.
Data parallelism (2016) : chaque GPU a une copie complète du modèle et reçoit un batch différent. Les gradients sont synchronisés (All-Reduce). Mais le modèle doit tenir sur un seul GPU — barrière pour les LLMs.
Model parallelism : le modèle est découpé entre plusieurs GPU. Pipeline parallelism (GPipe, 2018) enchaîne les couches sur différents GPU. Tensor parallelism (Megatron-LM, 2019) découpe chaque opération matricielle entre les GPU.
ZeRO (2020, Microsoft) et FSDP (2022, PyTorch) éliminent les redondances mémoire dans le data parallelism — chaque GPU ne stocke qu’une partition des paramètres, gradients, et optimizer states. Cela permet d’entraîner des modèles 100× plus grands.
Ray (2017, UC Berkeley) devient le framework de référence pour le ML distribué : scheduling, object store, auto-scaling. Horovod (Uber, 2017) simplifie le data parallelism distribué.
Parallélisme byzantin : Les protocoles BFT (PBFT, Tendermint, HotStuff) sont adaptés pour l’apprentissage distribué tolérant aux attaques byzantines. Krum, Médiane et Trimmed Mean sont des règles d’agrégation robustes conçues pour ML distribué.
Lien direct avec ta thèse : L’apprentissage distribué byzantin se situe à l’intersection des systèmes distribués (consensus, communication) et du ML robuste (agrégation, gradient filtering).
| Année | Contribution | Acteurs |
|---|---|---|
| 2016 | Data Parallelism (All-Reduce) — synchronisation des gradients par All-Reduce | Baidu (Andrew Gibiansky) |
| 2017 | Ray — framework ML distribué, scheduling, object store | UC Berkeley RISELab |
| 2017 | Horovod — data parallelism distribué simplifié, Ring-AllReduce | Uber (Sergei Lebedev) |
| 2018 | GPipe — pipeline parallelism, entraînement de modèles massifs | Google (Huang et al.) |
| 2019 | Megatron-LM — tensor parallelism, modèles 8B+ paramètres | NVIDIA |
| 2020 | ZeRO (DeepSpeed) — memory optimisation pour data parallelism | Microsoft |
| 2021 | DHT (Distributed Hash Table) — Skynet, Peer-to-Peer ML distribué | Hugging Face (petals) |
| 2022 | FSDP — Fully Sharded Data Parallelism natif dans PyTorch | Meta, PyTorch |
| 2024 | Distributed training of MoE (1T+) — mixture of experts + parallélisme distribué | DeepSeek, Google, NVIDIA |
| 2025 | AI Clusters 100k+ GPUs — entraînement distribué à l’échelle planétaire | xAI (Colossus), Meta, Google |
🔗 Voir aussi : History of Learning, Hardware
← La Scalabilité Cloud & Conteneurs • 04