Hardware-Aware Algorithms

🔗 Voir aussi : History of Hardware pour la timeline complète du hardware ML.

Algorithme	Année	Problème	Solution
FlashAttention	2022	$Q K^{⊤}$ lecture/écriture VRAM lente	Tiling : diviser en blocs tenant dans SRAM
FlashConv	2022	Convolution lente pour longues séquences	FFT + tiling GPU
PagedAttention	2023	Mémoire KV cache pour LLM inférence	Pagination style OS virtuel (vLLM)
Speculative Decoding	2022	Auto-regressive decoding lent	Petit modèle draft, grand modèle vérifie
Blockwise Quantization	2023	Quantization par bloc pour précision	Blocs 32/128 weights, chaque bloc a son scale
FlashDecoding	2023	Decoding lourd pour long contexte	Paralléliser sur dimension séquence
Tensor Parallelism	2020	Un layer réparti sur plusieurs GPUs	Megatron-LM, distribué
Pipeline Parallelism	2019	Couches du modèle sur GPUs différents	GPipe, interleaved 1F1B
Sequence Parallelism	2022	Répartir la dimension séquence sur GPUs	Ring Attention, DeepSpeed-Ulysses
Mixture of Depths	2024	Routage de tokens vers des couches spécifiques	Réduction FLOPs sans perte de perte

ArtNotes