Scaling Laws

Jusqu’en 2020, la taille des modèles était guidée par l’intuition. Kaplan et al. (OpenAI) changent la donne : ils montrent que la loss d’un modèle de langage suit une loi de puissance en fonction du nombre de paramètres ( $N$ ) et de la quantité de données ( $D$ ). La conclusion : bigger is better — pour améliorer la performance, il suffit d’augmenter la taille.

Deux ans plus tard, DeepMind publie Chinchilla et corrige le tir : les modèles existants (dont GPT-3) sont trop gros pour la quantité de données sur lesquelles ils sont entraînés. Avec un budget calcul fixe $C$ , le ratio optimal est d’environ 20 tokens par paramètre — autrement dit, mieux vaut entraîner un modèle 2× plus petit sur 2× plus de données. C’est le principe Chinchilla qui guide l’entraînement de Llama 3, Llama 4, Mistral, DeepSeek V4 et tous les LLMs modernes.

Parallèlement, l’article sur les emergent abilities (2022) révèle un phénomène fascinant : certaines capacités (traduction, raisonnement mathématique, few-shot learning) n’apparaissent qu’à partir d’un certain seuil de taille. Le modèle ne s’améliore pas graduellement — il émerge une nouvelle compétence de façon discontinue.

Papier	Année	Découverte	Impact
Kaplan et al. (OpenAI)	2020	$L \propto N^{- α_{N}} + D^{- α_{D}}$ — la loss décroît en loi de puissance avec params ET données	”Bigger is better”
Chinchilla (DeepMind)	2022	Re-calcul : les modèles sont trop gros, pas assez de tokens. $L \propto (N D)^{- α}$	“Train smaller models on more data”
Emergent Abilities	2022	Certaines capacités (few-shot) émergent à un seuil de taille	GPT-3 (175B) comme point de bascule
Grokking	2022	Généralisation soudaine après surapprentissage	Mécanisme d’apprentissage en deux phases
Thermodynamic AI	2023	Analogie physique : temperature, énergie libre

Conséquence pratique de Chinchilla : Pour un budget calcul $C$ , le ratio optimal est ~20 tokens par paramètre. Exemple : un modèle 7B doit être entraîné sur ~140B tokens.

← Positional Encodings • 34 • Alignment (RLHF → DPO → ORPO) →

ArtNotes

Explorateur

34 - Scaling Laws

Scaling Laws

Vue Graphique

Liens retour