35 - Alignment (RLHF → DPO → ORPO)

Un LLM entraîné sur Internet sait prédire le mot suivant — mais il ne sait pas quel mot est utile, poli, ou conforme aux attentes humaines. L’alignment est le processus qui transforme un modèle de langage brut en un assistant.

La première génération, RLHF (Reinforcement Learning from Human Feedback, 2020-2022), est un pipeline en trois étapes : (1) fine-tuner le modèle sur des exemples de dialogues, (2) entraîner un reward model à prédire les préférences humaines, (3) utiliser PPO pour optimiser le modèle contre ce reward. C’est puissant mais instable — trois modèles à maintenir, un entraînement RL notoirement fragile.

DPO (Direct Preference Optimization, 2023) simplifie radicalement : au lieu d’entraîner un reward model séparé, la loss DPO optimise directement les préférences à partir de paires de réponses (bonne vs mauvaise). Deux modèles au lieu de trois, pas de RL, convergence stable. C’est devenu le standard en 2024.

ORPO (2024) va encore plus loin en fusionnant l’étape de fine-tuning (SFT) et l’alignement en une seule loss. Un seul modèle, une seule étape d’entraînement. La direction est claire : simplifier le pipeline d’alignement jusqu’à ce qu’il disparaisse dans le pré-entraînement lui-même.

En 2025, DeepSeek R1 ouvre une voie radicalement nouvelle : le raisonnement émergent par pur RL. Au lieu de fine-tuner le modèle sur des exemples de chain-of-thought écrits par des humains, R1 laisse le modèle explorer librement l’espace des raisonnements, récompensé uniquement par la justesse de la réponse finale. Le modèle découvre spontanément le chain-of-thought, la vérification, et l’auto-correction. OpenAI o3/o4 (2025) et DeepSeek V4 (2026) généralisent cette approche, tandis que GPT-5.5 Pro intègre le reasoning directement dans le pré-entraînement — l’alignement et le raisonnement fusionnent en un seul processus.

Année	Contribution	Concept	Complexité
2023	DPO (Direct Preference Optimization)	Loss directe sur les préférences sans reward model	2 modèles (policy, ref)
2023	KTO (Kahneman-Tversky)	RLHF sans paires, juste des bonnes/mauvaises réponses	1 modèle
2023	RRHF	Rank responses via loss de classement	1 modèle
2024	SimPO	DPO simplifié, utilise la likelihood comme implicit reward	1 modèle
2024	ORPO	SFT + alignment en une seule étape	1 modèle

← Scaling Laws • 35 • Parameter-Efficient Fine-Tuning →

ArtNotes

Explorateur

35 - Alignment (RLHF → DPO → ORPO)

Vue Graphique

Liens retour