ML Distribué & Ère Moderne (2016–aujourd’hui)

L’entraînement des modèles de deep learning dépasse rapidement la capacité d’un seul GPU. Les systèmes distribués deviennent une brique essentielle du ML.

Data parallelism (2016) : chaque GPU a une copie complète du modèle et reçoit un batch différent. Les gradients sont synchronisés (All-Reduce). Mais le modèle doit tenir sur un seul GPU — barrière pour les LLMs.

Model parallelism : le modèle est découpé entre plusieurs GPU. Pipeline parallelism (GPipe, 2018) enchaîne les couches sur différents GPU. Tensor parallelism (Megatron-LM, 2019) découpe chaque opération matricielle entre les GPU.

ZeRO (2020, Microsoft) et FSDP (2022, PyTorch) éliminent les redondances mémoire dans le data parallelism — chaque GPU ne stocke qu’une partition des paramètres, gradients, et optimizer states. Cela permet d’entraîner des modèles 100× plus grands.

Ray (2017, UC Berkeley) devient le framework de référence pour le ML distribué : scheduling, object store, auto-scaling. Horovod (Uber, 2017) simplifie le data parallelism distribué.

Parallélisme byzantin : Les protocoles BFT (PBFT, Tendermint, HotStuff) sont adaptés pour l’apprentissage distribué tolérant aux attaques byzantines. Krum, Médiane et Trimmed Mean sont des règles d’agrégation robustes conçues pour ML distribué.

Lien direct avec ta thèse : L’apprentissage distribué byzantin se situe à l’intersection des systèmes distribués (consensus, communication) et du ML robuste (agrégation, gradient filtering).

Année	Contribution	Acteurs
2016	Data Parallelism (All-Reduce) — synchronisation des gradients par All-Reduce	Baidu (Andrew Gibiansky)
2017	Ray — framework ML distribué, scheduling, object store	UC Berkeley RISELab
2017	Horovod — data parallelism distribué simplifié, Ring-AllReduce	Uber (Sergei Lebedev)
2018	GPipe — pipeline parallelism, entraînement de modèles massifs	Google (Huang et al.)
2019	Megatron-LM — tensor parallelism, modèles 8B+ paramètres	NVIDIA
2020	ZeRO (DeepSpeed) — memory optimisation pour data parallelism	Microsoft
2021	DHT (Distributed Hash Table) — Skynet, Peer-to-Peer ML distribué	Hugging Face (petals)
2022	FSDP — Fully Sharded Data Parallelism natif dans PyTorch	Meta, PyTorch
2024	Distributed training of MoE (1T+) — mixture of experts + parallélisme distribué	DeepSeek, Google, NVIDIA
2025	AI Clusters 100k+ GPUs — entraînement distribué à l’échelle planétaire	xAI (Colossus), Meta, Google

🔗 Voir aussi : History of Learning, Hardware

← La Scalabilité Cloud & Conteneurs • 04

ArtNotes

Explorateur

04 - ML Distribué et Ère Moderne (2016–aujourd'hui)

ML Distribué & Ère Moderne (2016–aujourd’hui)

Vue Graphique

Liens retour