Parameter-Efficient Fine-Tuning (PEFT)

Fine-tuner un LLM de 70 milliards de paramètres en Full Fine-Tuning nécessite de stocker 280 Go de gradients (Adam a 4 états : poids, gradient, moyenne et variance du momentum). C’est inaccessible à un chercheur avec un seul GPU. Le PEFT (Parameter-Efficient Fine-Tuning) résout ce problème en ne modifiant qu’une infime fraction des paramètres — souvent moins de 1%.

La première approche est l’Adapter (Houlsby et al., 2019) : insérer de petites couches bottleneck apprises dans chaque block du modèle, en gelant le backbone. Efficace (~3-5% de params), mais ajoute une latence à l’inférence. Le Prefix Tuning (Li & Liang, 2021) contourne cela en apprenant des vecteurs virtuels concaténés aux clés et valeurs de l’attention — pas de paramètres structurels supplémentaires.

LoRA (Hu et al., 2021) est la méthode qui a tout changé. Au lieu d’ajouter des couches, LoRA ajoute une décomposition low-rank aux matrices de poids existantes : $W^{'} = W + B A$ , où $B \in R^{d \times r}$ et $A \in R^{r \times d}$ , avec $r ≪ d$ . Le poids original $W$ est gelé, seuls $B$ et $A$ sont appris. À l’inférence, $B A$ est fusionné dans $W$ — zéro latence ajoutée. Avec $r = 16$ , LoRA n’ajoute que 0.1% de paramètres mais rivalise avec le full fine-tuning.

QLoRA (Dettmers et al., 2023) pousse l’efficacité à l’extrême en combinant LoRA avec la quantization 4-bit (NormalFloat4, double quantization, paged optimizers). Résultat : fine-tuner un modèle de 65 milliards de paramètres sur un seul GPU 48 Go. C’est la démocratisation du fine-tuning de LLMs.

En 2024, DoRA affine LoRA en décomposant $Δ W$ en une magnitude et une direction — le weight decomposition améliore la stabilité. La tendance est claire : le PEFT converge vers un monde où adapter un LLM à une tâche spécifique coûte quelques euros de compute et quelques minutes.

Méthode	Année	Concept	Paramètres entraînés
Frozen + Head	—	Geler le backbone, entraîner la tête	<1%
Adapter	2019	Couches bottleneck insérées dans chaque block	~3-5%
Prefix Tuning	2021	Vecteurs appris concaténés aux clés/valeurs	~0.1%
LoRA	2021	$W + Δ W = W + B A$ , où $B, A$ sont low-rank	~0.1-1%
AdaLoRA	2023	Rang adaptatif par couche selon importance	~0.1-1%
DoRA	2024	LoRA + décomposition direction/norme	~0.1-1%
VeRA	2023	Vecteurs partagés + scaling appris	~0.01%
(IA)³	2022	Scaling vectors sur activations (pas de poids)	~0.01%
Prompt Tuning	2021	Embeddings appris pour soft prompts	~0.001%

Standard 2026 : LoRA (ou DoRA) pour fine-tuning efficient. QLoRA combine LoRA + quantization 4-bit = fine-tuner un 70B sur 1 GPU.

← Alignment (RLHF → DPO → ORPO) • 36 • Mixture of Experts (MoE) →

ArtNotes

Explorateur

36 - Parameter-Efficient Fine-Tuning (PEFT)

Parameter-Efficient Fine-Tuning (PEFT)

Vue Graphique

Liens retour