Hardware-Aware Algorithms

🔗 Voir aussi : History of Hardware pour la timeline complète du hardware ML.

AlgorithmeAnnéeProblèmeSolution
FlashAttention2022 lecture/écriture VRAM lenteTiling : diviser en blocs tenant dans SRAM
FlashConv2022Convolution lente pour longues séquencesFFT + tiling GPU
PagedAttention2023Mémoire KV cache pour LLM inférencePagination style OS virtuel (vLLM)
Speculative Decoding2022Auto-regressive decoding lentPetit modèle draft, grand modèle vérifie
Blockwise Quantization2023Quantization par bloc pour précisionBlocs 32/128 weights, chaque bloc a son scale
FlashDecoding2023Decoding lourd pour long contexteParalléliser sur dimension séquence
Tensor Parallelism2020Un layer réparti sur plusieurs GPUsMegatron-LM, distribué
Pipeline Parallelism2019Couches du modèle sur GPUs différentsGPipe, interleaved 1F1B
Sequence Parallelism2022Répartir la dimension séquence sur GPUsRing Attention, DeepSpeed-Ulysses
Mixture of Depths2024Routage de tokens vers des couches spécifiquesRéduction FLOPs sans perte de perte

← Mixture of Experts (MoE)38Open Source AI Movement →