L’Explosion ML (2015–aujourd’hui)
À partir de 2015, le hardware ML n’est plus une adaptation des GPU gaming — c’est une spécialisation totale.
Tesla V100 (2017, Volta) introduit les Tensor Cores — des unités dédiées aux opérations matricielles (multiplier-accumuler en FP16). Le V100 devient le GPU le plus utilisé dans les datacenters IA. Il est suivi par l’A100 (2020, Ampere) avec des Tensor Cores de troisième génération et le Multi-Instance GPU (MIG) pour partitionner le GPU.
Google TPU (2016) est le premier ASIC spécifiquement conçu pour le deep learning. Sous-estimé au départ, le TPUv2 (2017) puis TPUv3 (2018) et TPUv4 (2021) équipent les clusters internes de Google. Le TPU est un pari sur TensorFlow et la scalabilité verticale.
H100 (2022, Hopper) est le GPU le plus cher et le plus demandé de l’histoire — 80 milliards de transistors, Transformer Engine dédié (FP8, FP16). En 2024, B200 (Blackwell) pousse encore : 208 milliards de transistors, FP4 natif, 2× la performance du H100 en inférence LLM.
Les challengers émergent : Groq (LPU, architecture dédiée inférence), Cerebras (waferscale — un processeur de la taille d’un wafer entier), Apple Silicon (GPU unifié avec mémoire partagée), AMD MI300X (retour AMD dans la course IA).
| Année | Contribution | Acteurs |
|---|---|---|
| 2015 | TPUv1 — premier ASIC deep learning, inférence seulement | |
| 2017 | Tesla V100 — Tensor Cores (4× FP16), Volta, 21B transistors | NVIDIA |
| 2019 | TPUv3 — 2× TPUv2, pods de 1024 TPUs liquid-cooled | |
| 2020 | A100 — Ampere, MIG, troisième génération Tensor Cores | NVIDIA |
| 2021 | TPUv4 — interconnexion optique reconfigurable (OCS) | |
| 2022 | H100 — Hopper, Transformer Engine FP8, HBM3 (80 GB) | NVIDIA |
| 2022 | Groq LPU — architecture inférence dédiée, latence minimale | Groq |
| 2023 | Apple M3 Max — GPU unifié, mémoire partagée CPU/GPU | Apple |
| 2024 | B200 (Blackwell) — 208B transistors, FP4, 2× H100 inférence | NVIDIA |
| 2024 | AMD MI300X — 192 GB HBM3, concurrent direct H100 | AMD |
| 2025 | Cerebras Wafer Scale 3 — 4 trillions de transistors, 900k cœurs | Cerebras |
| 2025 | NVIDIA Rubin — architecture post-Blackwell, nouvelle génération | NVIDIA |
🔗 Voir aussi : History of Learning — le hardware qui a rendu le deep learning possible.
← La Révolution GPU (2006–2015) • 03