Reinforcement Learning
Le reinforcement learning (RL) répond à une question différente des autres branches du ML : non pas “quel est le label de cette image ?”, mais “quelle action dois-je prendre maintenant pour maximiser ma récompense future ?” C’est l’apprentissage par essai-erreur — un agent explore un environnement, reçoit des récompenses, et ajuste sa politique.
Pendant des années, le RL est resté confiné aux petits espaces d’états. Q-Learning (Watkins, 1998) stocke la valeur espérée de chaque action dans une table — impraticable pour des environnements complexes. La percée vient quand DeepMind combine Q-Learning et réseaux profonds : DQN (2013) joue à 49 jeux Atari directement depuis les pixels, dépassant les performances humaines sur 29 d’entre eux.
AlphaGo (2015-2017) marque l’entrée du deep RL dans la culture populaire. Le système combine réseaux de neurones et Monte Carlo Tree Search pour battre Lee Sedol, champion du monde de Go — un exploit qu’on pensait à dix ans de distance. AlphaZero (2018) généralise en apprenant Go, échecs et shogi sans aucune connaissance humaine, juste en jouant contre lui-même.
En parallèle, les algorithmes de policy gradient évoluent. A3C (2016) parallélise l’apprentissage sur CPU. PPO (2017) stabilise l’entraînement avec une contrainte de confiance, devenant le standard pour les tâches de contrôle continu (robots, jeux 3D). Mais c’est le RLHF (2020-2022) qui propulse le RL au cœur des LLMs : au lieu d’optimiser un score de jeu, on optimise l’alignement avec les préférences humaines. ChatGPT est fondamentalement un produit du reinforcement learning.
DPO (2023) simplifie radicalement ce pipeline en éliminant le besoin d’un modèle de récompense séparé. DeepSeek R1 (2025) va plus loin : en utilisant le RL pur (sans données supervisées), le modèle découvre spontanément le chain-of-thought reasoning. OpenAI o3 (2025) et DeepSeek V4 (2026) reprennent ce principe de reasoning RL à l’échelle, produisant des modèles capables de résoudre des problèmes de niveau olympiade mathématique et de générer des preuves formelles.
| Année | Contribution | Acteurs |
|---|---|---|
| 1998 | Q-Learning — apprentissage par différences temporelles | Watkins |
| 2013 | DQN — Deep Q-Network, joue à Atari | Mnih et al. (DeepMind) |
| 2015 | AlphaGo — bat Lee Sedol, premier à battre un champion humain au Go | DeepMind |
| 2016 | A3C — actor-critic asynchrone, parallélisation CPU | Mnih et al. |
| 2017 | PPO (Proximal Policy Optimization) — standard actuel RL | Schulman et al. (OpenAI) |
| 2018 | AlphaZero — Go + Chess + Shogi sans connaissance humaine | DeepMind |
| 2019 | MuZero — planification sans connaître la règle du jeu | DeepMind |
| 2020 | RLHF — Reinforcement Learning from Human Feedback | OpenAI (InstructGPT) |
| 2022 | ChatGPT — GPT-3.5 + RLHF — révolution IA grand public | OpenAI |
| 2023 | DPO (Direct Preference Optimization) — RLHF sans entraîner de reward model |
← Normalisation & Régularisation • 11 • Modèles Génératifs →