Deep Learning Distribué

Le deep learning n’est pas seulement une question d’algorithmes — c’est aussi une question d’infrastructure distribuée. Voir History of Distributed Systems pour le contexte plus large. Un modèle comme GPT-3 (175 milliards de paramètres) ne peut pas tenir dans la mémoire d’un seul GPU. Il faut répartir le calcul sur des dizaines, voire des milliers de machines.

NVIDIA a construit l’empilement technologique qui rend cela possible : CUDA (2006) pour programmer les GPU, cuDNN (2014) pour accélérer les primitives deep learning, et NCCL pour la communication inter-GPU. Sans cette stack, pas d’AlexNet, pas de GPT.

PyTorch encapsule cette complexité dans deux APIs complémentaires : DDP (Distributed Data Parallel) pour répliquer le modèle sur plusieurs GPUs avec synchronisation des gradients, et FSDP (Fully Sharded Data Parallel) pour découper les paramètres du modèle quand il est trop gros pour un seul GPU. Pour les LLMs, DeepSpeed (Microsoft) et Megatron-LM (NVIDIA) poussent le parallélisme plus loin avec ZeRO (optimisation mémoire) et le pipeline/tensor parallelism.

Parallèlement, Ray (Anyscale) offre une couche d’orchestration générale — lancer 1000 jobs Python sur un cluster aussi simplement qu’un ray.remote.

Lien thèse : C’est cette infrastructure distribuée que ta librairie doit sécuriser contre les attaquants byzantins. Chaque nœud de calcul est un worker potentiellement compromis. Les GARs (Krum, Bulyan, Median) sont les mécanismes de défense qui opèrent au niveau de l’agrégation des gradients sur cette infrastructure.

Technologie	Créateur	Rôle
CUDA (2006)	NVIDIA	Calcul parallèle sur GPU — socle de tout le DL moderne
cuDNN (2014)	NVIDIA	Primitives DL optimisées (convolution, pooling, RNN)
NCCL	NVIDIA	Communication multi-GPU (all-reduce, broadcast)
Distributed Data Parallel (DDP)	PyTorch	Synchronisation multi-GPU
Fully Sharded Data Parallel (FSDP)	PyTorch/Meta	Sharding des paramètres du modèle
DeepSpeed (ZeRO)	Microsoft	Optimisation mémoire pour LLMs
Megatron-LM	NVIDIA	Tensor parallelism + pipeline parallelism
Ray	Anyscale	Orchestration distribuée générale

← L’Ère des Transformers • 05 • Écosystème Actuel →

ArtNotes

Explorateur

05 - Deep Learning Distribué

Deep Learning Distribué

Vue Graphique

Liens retour