NLP : Du Word Embedding aux LLMs

Le traitement du langage naturel a connu la transformation la plus radicale de toute l’histoire du ML — en dix ans, le paradigme a changé quatre fois.

Avant 2013 : les mots sont des symboles discrets, manipulés par des règles ou des modèles statistiques (n-grammes). Un mot n’a pas de “sens” pour la machine, juste une probabilité de suivre un autre.

Word2Vec (Mikolov et al., 2013) change tout. Chaque mot devient un vecteur dense dans un espace continu où les relations sémantiques sont des opérations vectorielles : $vec (roi) - vec (homme) + vec (femme) \approx vec (reine)$ . Le langage devient calculable. GloVe (2014) affine avec une factorisation de matrice de co-occurrence globale.

Mais les embeddings de Word2Vec sont statiques — le mot “banque” a le même vecteur dans “banque de France” et “banc de sable”. ELMo (2018) introduit les embeddings contextuels : le vecteur d’un mot dépend de toute la phrase. Quelques mois plus tard, BERT (Google, 2018) perfectionne l’idée avec un pré-entraînement bidirectionnel masqué — le modèle apprend à prédire les mots masqués en regardant à gauche ET à droite. Résultat : BERT pulvérise 11 benchmarks NLP simultanément.

GPT (OpenAI, 2018) prend le chemin inverse : un modèle autoregressif, entraîné simplement à prédire le mot suivant. Pas de tâche spécifique, pas de masquage — juste prédire la suite. Quand le modèle atteint 175 milliards de paramètres (GPT-3, 2020), un phénomène inattendu émerge : le in-context learning. Le modèle peut résoudre des tâches nouvelles simplement en voyant quelques exemples dans le prompt, sans aucune mise à jour de ses poids.

En 2022, ChatGPT rend cette capacité accessible au grand public. En 2023, GPT-4 ajoute la multimodalité. En 2024, GPT-4o unifie voix, texte et vision dans un seul modèle multimodal natif, et o1 introduit le reasoning latent (chain-of-thought caché). En 2025, GPT-5 fusionne ces capacités, et o3 pousse le raisonnement à un niveau surhumain en mathématiques et en programmation compétitive. GPT-5.5 Pro (mai 2026) couronne cette trajectoire : multimodalité profonde, reasoning natif, agentic tool use, et fenêtres de contexte étendues — le tout dans un modèle unifié. Côté alternatif, Mamba 2 (State Space Duality) et Jamba (Mamba + Transformer + MoE hybride) proposent des alternatives à l’attention quadratique. DeepSeek R1 (2025) démontre qu’on peut entraîner un LLM à raisonner par pur RL, et DeepSeek V4 (2026) atteint la parité avec les meilleurs modèles propriétaires en restant open-weight. Gemini 3 Ultra (2026) inaugure les contextes à 10M tokens, ingérant des bibliothèques entières de code ou de littérature en une seule requête.

Année	Contribution	Concept
2003	NNLM — language model avec réseau de neurones	Bengio
2013	Word2Vec (CBOW + Skip-gram) — embeddings de mots	Mikolov et al. (Google)
2014	Seq2Seq + Attention — traduction neuronale	Bahdanau et al.
2014	GloVe — embeddings basés sur co-occurrence globale	Pennington et al.
2017	Transformer — attention seule, pas de RNN	Vaswani et al.
2018	ELMo — embeddings contextuels (BiLSTM)	Peters et al.
2018	BERT — masquage bidirectionnel, pré-entraînement + fine-tuning	Devlin et al.
2018	GPT — autoregressif, pré-entraînement + prompting	Radford et al.
2019	GPT-2 — 1.5B paramètres, génération de texte	OpenAI
2019	T5 — Text-to-Text Transfer Transformer, tout est texte	Raffel et al. (Google)
2020	GPT-3 — 175B, in-context learning, few-shot	OpenAI
2021	Codex — GPT-3 fine-tuné pour le code (GitHub Copilot)	OpenAI
2022	ChatGPT — RLHF, instruct, dialogue	OpenAI
2022	LLaMA — open-source, entraîné sur plus de tokens	Meta
2023	GPT-4 — multimodal, 1.8T paramètres (estimé)	OpenAI
2024	GPT-4o — multimodal natif voix-texte-vision, faible latence	OpenAI
2024	Mamba — state space model, pas d’attention, linéaire en séquence	Gu & Dao
2024	o1 — reasoning model, chain-of-thought latent	OpenAI
2025	DeepSeek V3/R1 — MoE + reasoning RL, 671B params, ~$5.6M	DeepSeek
2025	GPT-5 — multimodal unifié + reasoning natif	OpenAI
2025	Qwen 3.6 — open-source 100B+, licence Apache 2.0	Alibaba
2026	GPT-5.5 Pro — multimodal profond + agentic tool use unifié	OpenAI
2026	DeepSeek V4 — 1.2T MoE, MLA v2, parité avec GPT-5.5 Pro	DeepSeek
2026	Llama 4 (Maverick/Scout) — MoE natif, 30T tokens	Meta
2026	Claude 4.7 — raisonnement long + computer use avancé	Anthropic
2026	Gemini 3 Ultra — 10M tokens contexte, multimodal native reasoning	Google
2026	Mistral Large 3 — open-weight 120B+, reasoning intégré	Mistral AI

← Vision par Ordinateur • 14 • AutoML & Meta-Learning →

ArtNotes

Explorateur

14 - NLP — Du Word Embedding aux LLMs

NLP : Du Word Embedding aux LLMs

Vue Graphique

Liens retour