Hardware : La Révolution du Calcul
Sans GPU, le deep learning moderne n’existerait pas. La raison est simple : les réseaux de neurones sont massivement parallèles — chaque neurone d’une couche effectue exactement la même opération sur des données différentes. Un GPU, avec ses milliers de cœurs SIMD, est l’architecture idéale pour ce calcul.
CUDA (NVIDIA, 2006) est le big bang. Avant CUDA, programmer un GPU nécessitait de connaître OpenGL ou DirectX — il fallait déguiser son calcul matriciel en rendu graphique. CUDA expose le GPU comme un processeur généraliste programmable en C. Sans CUDA, pas de Theano, pas de TensorFlow, pas de PyTorch.
La course à la puissance suit une loi de Moore accélérée. Chaque génération double les performances : le GTX 580 (2012) qui a entraîné AlexNet en 6 jours délivrait 1.5 TFLOPS en FP32. Le H100 (2022) délivre 1979 TFLOPS en FP8 avec un Transformer Engine dédié — un facteur 1000× en 10 ans. Le B200 (Blackwell, 2024) atteint 20 PFLOPS en FP4, le format de précision le plus bas jamais utilisé pour l’inférence.
Les Tensor Cores, introduits avec Volta (V100, 2017), sont le deuxième big bang. Ces unités spécialisées effectuent une multiplication-accumulation de matrices 4×4 en un cycle d’horloge — l’opération fondamentale du deep learning. Sans Tensor Cores, entraîner BERT prendrait des mois au lieu de jours.
Face à NVIDIA, Google développe ses propres accélérateurs : les TPU (Tensor Processing Units). Conçus spécifiquement pour TensorFlow, ils utilisent des systoles arrays. Les TPUv4 (2021) peuvent être assemblés en pods de 4096 unités pour entraîner PaLM. Les TPUv5 (Trillium, 2024) doublent encore la performance. AMD MI300X (2024) offre 192 Go HBM3 par GPU — une alternative compétitive. Intel Gaudi 3 (2024) devient une option crédible pour l’entraînement.
En 2024-2025, les clusters à 100k GPU deviennent réalité : xAI Colossus à Memphis assemble 100 000 H100, Meta construit son équivalent pour Llama 4. La course au compute est désormais une question de gigawatts — l’énergie devient le facteur limitant, pas le nombre de transistors.
GPUs
| Année | Hardware | Impact |
|---|---|---|
| 2006 | CUDA (NVIDIA) | Calcul généraliste sur GPU — tout le DL moderne en dépend |
| 2008 | GTX 280 (Tesla) | Premier GPU programmable grand public |
| 2012 | GTX 580 | AlexNet entraîné sur 2× GTX 580 — 6 jours |
| 2014 | cuDNN | Primitives DL optimisées (conv, pool, RNN) |
| 2017 | V100 (Volta) | Tensor Cores, 125 TFLOPS — standard recherche |
| 2020 | A100 (Ampere) | Multi-instance GPU, 312 TFLOPS |
| 2022 | H100 (Hopper) | Transformer Engine, 1979 TFLOPS FP8 |
| 2024 | B200 (Blackwell) | 20 PFLOPS FP4 — 2× H100 |
TPUs (Google)
| Génération | Année | Utilisation |
|---|---|---|
| TPUv1 | 2015 | Inférence (cartes custom, pas pour entraînement) |
| TPUv2 | 2017 | Entraînement BERT |
| TPUv3 | 2018 | 128 TFLOPS par puce, pods de 1024 TPUs |
| TPUv4 | 2021 | 4096 TPUs par pod, utilisé pour PaLM |
| TPUv5 (Trillium) | 2024 | 2× performance vs v4 |
NPUs / Accélérateurs
| Technologie | Entreprise | Spécificité |
|---|---|---|
| Neural Engine | Apple | Intégré dans A11+ (2017), M1+ (2020) |
| Ascend (DaVinci) | Huawei | Training + Inférence, alternative à NVIDIA |
| Gaudi | Intel (Habana) | Entraînement LLM |
| WSE (Wafer-Scale) | Cerebras | Plus grande puce au monde (46k mm²) |
| IPU | Graphcore | Architecture MIMD pour DL |
| Sohu / Shen | Groq | Inférence ultra-rapide, LPU (Language Processing Unit) |
🔗 Voir aussi : History of Hardware pour la timeline complète du hardware ML, Hardware Timeline (Complément)
← Graph Neural Networks (GNNs) • 08 • Optimisation : Évolution des Optimiseurs →