Reinforcement Learning

Le reinforcement learning (RL) répond à une question différente des autres branches du ML : non pas “quel est le label de cette image ?”, mais “quelle action dois-je prendre maintenant pour maximiser ma récompense future ?” C’est l’apprentissage par essai-erreur — un agent explore un environnement, reçoit des récompenses, et ajuste sa politique.

Pendant des années, le RL est resté confiné aux petits espaces d’états. Q-Learning (Watkins, 1998) stocke la valeur espérée de chaque action dans une table — impraticable pour des environnements complexes. La percée vient quand DeepMind combine Q-Learning et réseaux profonds : DQN (2013) joue à 49 jeux Atari directement depuis les pixels, dépassant les performances humaines sur 29 d’entre eux.

AlphaGo (2015-2017) marque l’entrée du deep RL dans la culture populaire. Le système combine réseaux de neurones et Monte Carlo Tree Search pour battre Lee Sedol, champion du monde de Go — un exploit qu’on pensait à dix ans de distance. AlphaZero (2018) généralise en apprenant Go, échecs et shogi sans aucune connaissance humaine, juste en jouant contre lui-même.

En parallèle, les algorithmes de policy gradient évoluent. A3C (2016) parallélise l’apprentissage sur CPU. PPO (2017) stabilise l’entraînement avec une contrainte de confiance, devenant le standard pour les tâches de contrôle continu (robots, jeux 3D). Mais c’est le RLHF (2020-2022) qui propulse le RL au cœur des LLMs : au lieu d’optimiser un score de jeu, on optimise l’alignement avec les préférences humaines. ChatGPT est fondamentalement un produit du reinforcement learning.

DPO (2023) simplifie radicalement ce pipeline en éliminant le besoin d’un modèle de récompense séparé. DeepSeek R1 (2025) va plus loin : en utilisant le RL pur (sans données supervisées), le modèle découvre spontanément le chain-of-thought reasoning. OpenAI o3 (2025) et DeepSeek V4 (2026) reprennent ce principe de reasoning RL à l’échelle, produisant des modèles capables de résoudre des problèmes de niveau olympiade mathématique et de générer des preuves formelles.

Année	Contribution	Acteurs
1998	Q-Learning — apprentissage par différences temporelles	Watkins
2013	DQN — Deep Q-Network, joue à Atari	Mnih et al. (DeepMind)
2015	AlphaGo — bat Lee Sedol, premier à battre un champion humain au Go	DeepMind
2016	A3C — actor-critic asynchrone, parallélisation CPU	Mnih et al.
2017	PPO (Proximal Policy Optimization) — standard actuel RL	Schulman et al. (OpenAI)
2018	AlphaZero — Go + Chess + Shogi sans connaissance humaine	DeepMind
2019	MuZero — planification sans connaître la règle du jeu	DeepMind
2020	RLHF — Reinforcement Learning from Human Feedback	OpenAI (InstructGPT)
2022	ChatGPT — GPT-3.5 + RLHF — révolution IA grand public	OpenAI
2023	DPO (Direct Preference Optimization) — RLHF sans entraîner de reward model

← Normalisation & Régularisation • 11 • Modèles Génératifs →

ArtNotes

Explorateur

11 - Reinforcement Learning

Reinforcement Learning

Vue Graphique

Liens retour