Deep Learning Distribué

Le deep learning n’est pas seulement une question d’algorithmes — c’est aussi une question d’infrastructure distribuée. Voir History of Distributed Systems pour le contexte plus large. Un modèle comme GPT-3 (175 milliards de paramètres) ne peut pas tenir dans la mémoire d’un seul GPU. Il faut répartir le calcul sur des dizaines, voire des milliers de machines.

NVIDIA a construit l’empilement technologique qui rend cela possible : CUDA (2006) pour programmer les GPU, cuDNN (2014) pour accélérer les primitives deep learning, et NCCL pour la communication inter-GPU. Sans cette stack, pas d’AlexNet, pas de GPT.

PyTorch encapsule cette complexité dans deux APIs complémentaires : DDP (Distributed Data Parallel) pour répliquer le modèle sur plusieurs GPUs avec synchronisation des gradients, et FSDP (Fully Sharded Data Parallel) pour découper les paramètres du modèle quand il est trop gros pour un seul GPU. Pour les LLMs, DeepSpeed (Microsoft) et Megatron-LM (NVIDIA) poussent le parallélisme plus loin avec ZeRO (optimisation mémoire) et le pipeline/tensor parallelism.

Parallèlement, Ray (Anyscale) offre une couche d’orchestration générale — lancer 1000 jobs Python sur un cluster aussi simplement qu’un ray.remote.

Lien thèse : C’est cette infrastructure distribuée que ta librairie doit sécuriser contre les attaquants byzantins. Chaque nœud de calcul est un worker potentiellement compromis. Les GARs (Krum, Bulyan, Median) sont les mécanismes de défense qui opèrent au niveau de l’agrégation des gradients sur cette infrastructure.

TechnologieCréateurRôle
CUDA (2006)NVIDIACalcul parallèle sur GPU — socle de tout le DL moderne
cuDNN (2014)NVIDIAPrimitives DL optimisées (convolution, pooling, RNN)
NCCLNVIDIACommunication multi-GPU (all-reduce, broadcast)
Distributed Data Parallel (DDP)PyTorchSynchronisation multi-GPU
Fully Sharded Data Parallel (FSDP)PyTorch/MetaSharding des paramètres du modèle
DeepSpeed (ZeRO)MicrosoftOptimisation mémoire pour LLMs
Megatron-LMNVIDIATensor parallelism + pipeline parallelism
RayAnyscaleOrchestration distribuée générale

← L’Ère des Transformers05Écosystème Actuel →