Scaling Laws

Jusqu’en 2020, la taille des modèles était guidée par l’intuition. Kaplan et al. (OpenAI) changent la donne : ils montrent que la loss d’un modèle de langage suit une loi de puissance en fonction du nombre de paramètres () et de la quantité de données (). La conclusion : bigger is better — pour améliorer la performance, il suffit d’augmenter la taille.

Deux ans plus tard, DeepMind publie Chinchilla et corrige le tir : les modèles existants (dont GPT-3) sont trop gros pour la quantité de données sur lesquelles ils sont entraînés. Avec un budget calcul fixe , le ratio optimal est d’environ 20 tokens par paramètre — autrement dit, mieux vaut entraîner un modèle 2× plus petit sur 2× plus de données. C’est le principe Chinchilla qui guide l’entraînement de Llama 3, Llama 4, Mistral, DeepSeek V4 et tous les LLMs modernes.

Parallèlement, l’article sur les emergent abilities (2022) révèle un phénomène fascinant : certaines capacités (traduction, raisonnement mathématique, few-shot learning) n’apparaissent qu’à partir d’un certain seuil de taille. Le modèle ne s’améliore pas graduellement — il émerge une nouvelle compétence de façon discontinue.

PapierAnnéeDécouverteImpact
Kaplan et al. (OpenAI)2020 — la loss décroît en loi de puissance avec params ET données”Bigger is better”
Chinchilla (DeepMind)2022Re-calcul : les modèles sont trop gros, pas assez de tokens. “Train smaller models on more data”
Emergent Abilities2022Certaines capacités (few-shot) émergent à un seuil de tailleGPT-3 (175B) comme point de bascule
Grokking2022Généralisation soudaine après surapprentissageMécanisme d’apprentissage en deux phases
Thermodynamic AI2023Analogie physique : temperature, énergie libre

Conséquence pratique de Chinchilla : Pour un budget calcul , le ratio optimal est ~20 tokens par paramètre. Exemple : un modèle 7B doit être entraîné sur ~140B tokens.

← Positional Encodings34Alignment (RLHF → DPO → ORPO) →