Hardware-Aware Algorithms
🔗 Voir aussi : History of Hardware pour la timeline complète du hardware ML.
| Algorithme | Année | Problème | Solution |
|---|---|---|---|
| FlashAttention | 2022 | lecture/écriture VRAM lente | Tiling : diviser en blocs tenant dans SRAM |
| FlashConv | 2022 | Convolution lente pour longues séquences | FFT + tiling GPU |
| PagedAttention | 2023 | Mémoire KV cache pour LLM inférence | Pagination style OS virtuel (vLLM) |
| Speculative Decoding | 2022 | Auto-regressive decoding lent | Petit modèle draft, grand modèle vérifie |
| Blockwise Quantization | 2023 | Quantization par bloc pour précision | Blocs 32/128 weights, chaque bloc a son scale |
| FlashDecoding | 2023 | Decoding lourd pour long contexte | Paralléliser sur dimension séquence |
| Tensor Parallelism | 2020 | Un layer réparti sur plusieurs GPUs | Megatron-LM, distribué |
| Pipeline Parallelism | 2019 | Couches du modèle sur GPUs différents | GPipe, interleaved 1F1B |
| Sequence Parallelism | 2022 | Répartir la dimension séquence sur GPUs | Ring Attention, DeepSpeed-Ulysses |
| Mixture of Depths | 2024 | Routage de tokens vers des couches spécifiques | Réduction FLOPs sans perte de perte |
← Mixture of Experts (MoE) • 38 • Open Source AI Movement →