NLP : Du Word Embedding aux LLMs
Le traitement du langage naturel a connu la transformation la plus radicale de toute l’histoire du ML — en dix ans, le paradigme a changé quatre fois.
Avant 2013 : les mots sont des symboles discrets, manipulés par des règles ou des modèles statistiques (n-grammes). Un mot n’a pas de “sens” pour la machine, juste une probabilité de suivre un autre.
Word2Vec (Mikolov et al., 2013) change tout. Chaque mot devient un vecteur dense dans un espace continu où les relations sémantiques sont des opérations vectorielles : . Le langage devient calculable. GloVe (2014) affine avec une factorisation de matrice de co-occurrence globale.
Mais les embeddings de Word2Vec sont statiques — le mot “banque” a le même vecteur dans “banque de France” et “banc de sable”. ELMo (2018) introduit les embeddings contextuels : le vecteur d’un mot dépend de toute la phrase. Quelques mois plus tard, BERT (Google, 2018) perfectionne l’idée avec un pré-entraînement bidirectionnel masqué — le modèle apprend à prédire les mots masqués en regardant à gauche ET à droite. Résultat : BERT pulvérise 11 benchmarks NLP simultanément.
GPT (OpenAI, 2018) prend le chemin inverse : un modèle autoregressif, entraîné simplement à prédire le mot suivant. Pas de tâche spécifique, pas de masquage — juste prédire la suite. Quand le modèle atteint 175 milliards de paramètres (GPT-3, 2020), un phénomène inattendu émerge : le in-context learning. Le modèle peut résoudre des tâches nouvelles simplement en voyant quelques exemples dans le prompt, sans aucune mise à jour de ses poids.
En 2022, ChatGPT rend cette capacité accessible au grand public. En 2023, GPT-4 ajoute la multimodalité. En 2024, GPT-4o unifie voix, texte et vision dans un seul modèle multimodal natif, et o1 introduit le reasoning latent (chain-of-thought caché). En 2025, GPT-5 fusionne ces capacités, et o3 pousse le raisonnement à un niveau surhumain en mathématiques et en programmation compétitive. GPT-5.5 Pro (mai 2026) couronne cette trajectoire : multimodalité profonde, reasoning natif, agentic tool use, et fenêtres de contexte étendues — le tout dans un modèle unifié. Côté alternatif, Mamba 2 (State Space Duality) et Jamba (Mamba + Transformer + MoE hybride) proposent des alternatives à l’attention quadratique. DeepSeek R1 (2025) démontre qu’on peut entraîner un LLM à raisonner par pur RL, et DeepSeek V4 (2026) atteint la parité avec les meilleurs modèles propriétaires en restant open-weight. Gemini 3 Ultra (2026) inaugure les contextes à 10M tokens, ingérant des bibliothèques entières de code ou de littérature en une seule requête.
| Année | Contribution | Concept |
|---|---|---|
| 2003 | NNLM — language model avec réseau de neurones | Bengio |
| 2013 | Word2Vec (CBOW + Skip-gram) — embeddings de mots | Mikolov et al. (Google) |
| 2014 | Seq2Seq + Attention — traduction neuronale | Bahdanau et al. |
| 2014 | GloVe — embeddings basés sur co-occurrence globale | Pennington et al. |
| 2017 | Transformer — attention seule, pas de RNN | Vaswani et al. |
| 2018 | ELMo — embeddings contextuels (BiLSTM) | Peters et al. |
| 2018 | BERT — masquage bidirectionnel, pré-entraînement + fine-tuning | Devlin et al. |
| 2018 | GPT — autoregressif, pré-entraînement + prompting | Radford et al. |
| 2019 | GPT-2 — 1.5B paramètres, génération de texte | OpenAI |
| 2019 | T5 — Text-to-Text Transfer Transformer, tout est texte | Raffel et al. (Google) |
| 2020 | GPT-3 — 175B, in-context learning, few-shot | OpenAI |
| 2021 | Codex — GPT-3 fine-tuné pour le code (GitHub Copilot) | OpenAI |
| 2022 | ChatGPT — RLHF, instruct, dialogue | OpenAI |
| 2022 | LLaMA — open-source, entraîné sur plus de tokens | Meta |
| 2023 | GPT-4 — multimodal, 1.8T paramètres (estimé) | OpenAI |
| 2024 | GPT-4o — multimodal natif voix-texte-vision, faible latence | OpenAI |
| 2024 | Mamba — state space model, pas d’attention, linéaire en séquence | Gu & Dao |
| 2024 | o1 — reasoning model, chain-of-thought latent | OpenAI |
| 2025 | DeepSeek V3/R1 — MoE + reasoning RL, 671B params, ~$5.6M | DeepSeek |
| 2025 | GPT-5 — multimodal unifié + reasoning natif | OpenAI |
| 2025 | Qwen 3.6 — open-source 100B+, licence Apache 2.0 | Alibaba |
| 2026 | GPT-5.5 Pro — multimodal profond + agentic tool use unifié | OpenAI |
| 2026 | DeepSeek V4 — 1.2T MoE, MLA v2, parité avec GPT-5.5 Pro | DeepSeek |
| 2026 | Llama 4 (Maverick/Scout) — MoE natif, 30T tokens | Meta |
| 2026 | Claude 4.7 — raisonnement long + computer use avancé | Anthropic |
| 2026 | Gemini 3 Ultra — 10M tokens contexte, multimodal native reasoning | |
| 2026 | Mistral Large 3 — open-weight 120B+, reasoning intégré | Mistral AI |
← Vision par Ordinateur • 14 • AutoML & Meta-Learning →