Reinforcement Learning

Le reinforcement learning (RL) répond à une question différente des autres branches du ML : non pas “quel est le label de cette image ?”, mais “quelle action dois-je prendre maintenant pour maximiser ma récompense future ?” C’est l’apprentissage par essai-erreur — un agent explore un environnement, reçoit des récompenses, et ajuste sa politique.

Pendant des années, le RL est resté confiné aux petits espaces d’états. Q-Learning (Watkins, 1998) stocke la valeur espérée de chaque action dans une table — impraticable pour des environnements complexes. La percée vient quand DeepMind combine Q-Learning et réseaux profonds : DQN (2013) joue à 49 jeux Atari directement depuis les pixels, dépassant les performances humaines sur 29 d’entre eux.

AlphaGo (2015-2017) marque l’entrée du deep RL dans la culture populaire. Le système combine réseaux de neurones et Monte Carlo Tree Search pour battre Lee Sedol, champion du monde de Go — un exploit qu’on pensait à dix ans de distance. AlphaZero (2018) généralise en apprenant Go, échecs et shogi sans aucune connaissance humaine, juste en jouant contre lui-même.

En parallèle, les algorithmes de policy gradient évoluent. A3C (2016) parallélise l’apprentissage sur CPU. PPO (2017) stabilise l’entraînement avec une contrainte de confiance, devenant le standard pour les tâches de contrôle continu (robots, jeux 3D). Mais c’est le RLHF (2020-2022) qui propulse le RL au cœur des LLMs : au lieu d’optimiser un score de jeu, on optimise l’alignement avec les préférences humaines. ChatGPT est fondamentalement un produit du reinforcement learning.

DPO (2023) simplifie radicalement ce pipeline en éliminant le besoin d’un modèle de récompense séparé. DeepSeek R1 (2025) va plus loin : en utilisant le RL pur (sans données supervisées), le modèle découvre spontanément le chain-of-thought reasoning. OpenAI o3 (2025) et DeepSeek V4 (2026) reprennent ce principe de reasoning RL à l’échelle, produisant des modèles capables de résoudre des problèmes de niveau olympiade mathématique et de générer des preuves formelles.

AnnéeContributionActeurs
1998Q-Learning — apprentissage par différences temporellesWatkins
2013DQN — Deep Q-Network, joue à AtariMnih et al. (DeepMind)
2015AlphaGo — bat Lee Sedol, premier à battre un champion humain au GoDeepMind
2016A3C — actor-critic asynchrone, parallélisation CPUMnih et al.
2017PPO (Proximal Policy Optimization) — standard actuel RLSchulman et al. (OpenAI)
2018AlphaZero — Go + Chess + Shogi sans connaissance humaineDeepMind
2019MuZero — planification sans connaître la règle du jeuDeepMind
2020RLHF — Reinforcement Learning from Human FeedbackOpenAI (InstructGPT)
2022ChatGPT — GPT-3.5 + RLHF — révolution IA grand publicOpenAI
2023DPO (Direct Preference Optimization) — RLHF sans entraîner de reward model

← Normalisation & Régularisation11Modèles Génératifs →