Parameter-Efficient Fine-Tuning (PEFT)

Fine-tuner un LLM de 70 milliards de paramètres en Full Fine-Tuning nécessite de stocker 280 Go de gradients (Adam a 4 états : poids, gradient, moyenne et variance du momentum). C’est inaccessible à un chercheur avec un seul GPU. Le PEFT (Parameter-Efficient Fine-Tuning) résout ce problème en ne modifiant qu’une infime fraction des paramètres — souvent moins de 1%.

La première approche est l’Adapter (Houlsby et al., 2019) : insérer de petites couches bottleneck apprises dans chaque block du modèle, en gelant le backbone. Efficace (~3-5% de params), mais ajoute une latence à l’inférence. Le Prefix Tuning (Li & Liang, 2021) contourne cela en apprenant des vecteurs virtuels concaténés aux clés et valeurs de l’attention — pas de paramètres structurels supplémentaires.

LoRA (Hu et al., 2021) est la méthode qui a tout changé. Au lieu d’ajouter des couches, LoRA ajoute une décomposition low-rank aux matrices de poids existantes : , où et , avec . Le poids original est gelé, seuls et sont appris. À l’inférence, est fusionné dans zéro latence ajoutée. Avec , LoRA n’ajoute que 0.1% de paramètres mais rivalise avec le full fine-tuning.

QLoRA (Dettmers et al., 2023) pousse l’efficacité à l’extrême en combinant LoRA avec la quantization 4-bit (NormalFloat4, double quantization, paged optimizers). Résultat : fine-tuner un modèle de 65 milliards de paramètres sur un seul GPU 48 Go. C’est la démocratisation du fine-tuning de LLMs.

En 2024, DoRA affine LoRA en décomposant en une magnitude et une direction — le weight decomposition améliore la stabilité. La tendance est claire : le PEFT converge vers un monde où adapter un LLM à une tâche spécifique coûte quelques euros de compute et quelques minutes.

MéthodeAnnéeConceptParamètres entraînés
Frozen + HeadGeler le backbone, entraîner la tête<1%
Adapter2019Couches bottleneck insérées dans chaque block~3-5%
Prefix Tuning2021Vecteurs appris concaténés aux clés/valeurs~0.1%
LoRA2021, où sont low-rank~0.1-1%
AdaLoRA2023Rang adaptatif par couche selon importance~0.1-1%
DoRA2024LoRA + décomposition direction/norme~0.1-1%
VeRA2023Vecteurs partagés + scaling appris~0.01%
(IA)³2022Scaling vectors sur activations (pas de poids)~0.01%
Prompt Tuning2021Embeddings appris pour soft prompts~0.001%

Standard 2026 : LoRA (ou DoRA) pour fine-tuning efficient. QLoRA combine LoRA + quantization 4-bit = fine-tuner un 70B sur 1 GPU.

← Alignment (RLHF → DPO → ORPO)36Mixture of Experts (MoE) →