Hardware : La Révolution du Calcul

Sans GPU, le deep learning moderne n’existerait pas. La raison est simple : les réseaux de neurones sont massivement parallèles — chaque neurone d’une couche effectue exactement la même opération sur des données différentes. Un GPU, avec ses milliers de cœurs SIMD, est l’architecture idéale pour ce calcul.

CUDA (NVIDIA, 2006) est le big bang. Avant CUDA, programmer un GPU nécessitait de connaître OpenGL ou DirectX — il fallait déguiser son calcul matriciel en rendu graphique. CUDA expose le GPU comme un processeur généraliste programmable en C. Sans CUDA, pas de Theano, pas de TensorFlow, pas de PyTorch.

La course à la puissance suit une loi de Moore accélérée. Chaque génération double les performances : le GTX 580 (2012) qui a entraîné AlexNet en 6 jours délivrait 1.5 TFLOPS en FP32. Le H100 (2022) délivre 1979 TFLOPS en FP8 avec un Transformer Engine dédié — un facteur 1000× en 10 ans. Le B200 (Blackwell, 2024) atteint 20 PFLOPS en FP4, le format de précision le plus bas jamais utilisé pour l’inférence.

Les Tensor Cores, introduits avec Volta (V100, 2017), sont le deuxième big bang. Ces unités spécialisées effectuent une multiplication-accumulation de matrices 4×4 en un cycle d’horloge — l’opération fondamentale du deep learning. Sans Tensor Cores, entraîner BERT prendrait des mois au lieu de jours.

Face à NVIDIA, Google développe ses propres accélérateurs : les TPU (Tensor Processing Units). Conçus spécifiquement pour TensorFlow, ils utilisent des systoles arrays. Les TPUv4 (2021) peuvent être assemblés en pods de 4096 unités pour entraîner PaLM. Les TPUv5 (Trillium, 2024) doublent encore la performance. AMD MI300X (2024) offre 192 Go HBM3 par GPU — une alternative compétitive. Intel Gaudi 3 (2024) devient une option crédible pour l’entraînement.

En 2024-2025, les clusters à 100k GPU deviennent réalité : xAI Colossus à Memphis assemble 100 000 H100, Meta construit son équivalent pour Llama 4. La course au compute est désormais une question de gigawatts — l’énergie devient le facteur limitant, pas le nombre de transistors.

GPUs

Année	Hardware	Impact
2006	CUDA (NVIDIA)	Calcul généraliste sur GPU — tout le DL moderne en dépend
2008	GTX 280 (Tesla)	Premier GPU programmable grand public
2012	GTX 580	AlexNet entraîné sur 2× GTX 580 — 6 jours
2014	cuDNN	Primitives DL optimisées (conv, pool, RNN)
2017	V100 (Volta)	Tensor Cores, 125 TFLOPS — standard recherche
2020	A100 (Ampere)	Multi-instance GPU, 312 TFLOPS
2022	H100 (Hopper)	Transformer Engine, 1979 TFLOPS FP8
2024	B200 (Blackwell)	20 PFLOPS FP4 — 2× H100

TPUs (Google)

Génération	Année	Utilisation
TPUv1	2015	Inférence (cartes custom, pas pour entraînement)
TPUv2	2017	Entraînement BERT
TPUv3	2018	128 TFLOPS par puce, pods de 1024 TPUs
TPUv4	2021	4096 TPUs par pod, utilisé pour PaLM
TPUv5 (Trillium)	2024	2× performance vs v4

NPUs / Accélérateurs

Technologie	Entreprise	Spécificité
Neural Engine	Apple	Intégré dans A11+ (2017), M1+ (2020)
Ascend (DaVinci)	Huawei	Training + Inférence, alternative à NVIDIA
Gaudi	Intel (Habana)	Entraînement LLM
WSE (Wafer-Scale)	Cerebras	Plus grande puce au monde (46k mm²)
IPU	Graphcore	Architecture MIMD pour DL
Sohu / Shen	Groq	Inférence ultra-rapide, LPU (Language Processing Unit)

🔗 Voir aussi : History of Hardware pour la timeline complète du hardware ML, Hardware Timeline (Complément)

← Graph Neural Networks (GNNs) • 08 • Optimisation : Évolution des Optimiseurs →

ArtNotes

Explorateur

08 - Hardware — La Révolution du Calcul

Hardware : La Révolution du Calcul

GPUs

TPUs (Google)

NPUs / Accélérateurs

Vue Graphique

Table des Matières

Liens retour