Parameter-Efficient Fine-Tuning (PEFT)
Fine-tuner un LLM de 70 milliards de paramètres en Full Fine-Tuning nécessite de stocker 280 Go de gradients (Adam a 4 états : poids, gradient, moyenne et variance du momentum). C’est inaccessible à un chercheur avec un seul GPU. Le PEFT (Parameter-Efficient Fine-Tuning) résout ce problème en ne modifiant qu’une infime fraction des paramètres — souvent moins de 1%.
La première approche est l’Adapter (Houlsby et al., 2019) : insérer de petites couches bottleneck apprises dans chaque block du modèle, en gelant le backbone. Efficace (~3-5% de params), mais ajoute une latence à l’inférence. Le Prefix Tuning (Li & Liang, 2021) contourne cela en apprenant des vecteurs virtuels concaténés aux clés et valeurs de l’attention — pas de paramètres structurels supplémentaires.
LoRA (Hu et al., 2021) est la méthode qui a tout changé. Au lieu d’ajouter des couches, LoRA ajoute une décomposition low-rank aux matrices de poids existantes : , où et , avec . Le poids original est gelé, seuls et sont appris. À l’inférence, est fusionné dans — zéro latence ajoutée. Avec , LoRA n’ajoute que 0.1% de paramètres mais rivalise avec le full fine-tuning.
QLoRA (Dettmers et al., 2023) pousse l’efficacité à l’extrême en combinant LoRA avec la quantization 4-bit (NormalFloat4, double quantization, paged optimizers). Résultat : fine-tuner un modèle de 65 milliards de paramètres sur un seul GPU 48 Go. C’est la démocratisation du fine-tuning de LLMs.
En 2024, DoRA affine LoRA en décomposant en une magnitude et une direction — le weight decomposition améliore la stabilité. La tendance est claire : le PEFT converge vers un monde où adapter un LLM à une tâche spécifique coûte quelques euros de compute et quelques minutes.
| Méthode | Année | Concept | Paramètres entraînés |
|---|---|---|---|
| Frozen + Head | — | Geler le backbone, entraîner la tête | <1% |
| Adapter | 2019 | Couches bottleneck insérées dans chaque block | ~3-5% |
| Prefix Tuning | 2021 | Vecteurs appris concaténés aux clés/valeurs | ~0.1% |
| LoRA | 2021 | , où sont low-rank | ~0.1-1% |
| AdaLoRA | 2023 | Rang adaptatif par couche selon importance | ~0.1-1% |
| DoRA | 2024 | LoRA + décomposition direction/norme | ~0.1-1% |
| VeRA | 2023 | Vecteurs partagés + scaling appris | ~0.01% |
| (IA)³ | 2022 | Scaling vectors sur activations (pas de poids) | ~0.01% |
| Prompt Tuning | 2021 | Embeddings appris pour soft prompts | ~0.001% |
Standard 2026 : LoRA (ou DoRA) pour fine-tuning efficient. QLoRA combine LoRA + quantization 4-bit = fine-tuner un 70B sur 1 GPU.
← Alignment (RLHF → DPO → ORPO) • 36 • Mixture of Experts (MoE) →