NLP : Du Word Embedding aux LLMs

Le traitement du langage naturel a connu la transformation la plus radicale de toute l’histoire du ML — en dix ans, le paradigme a changé quatre fois.

Avant 2013 : les mots sont des symboles discrets, manipulés par des règles ou des modèles statistiques (n-grammes). Un mot n’a pas de “sens” pour la machine, juste une probabilité de suivre un autre.

Word2Vec (Mikolov et al., 2013) change tout. Chaque mot devient un vecteur dense dans un espace continu où les relations sémantiques sont des opérations vectorielles : . Le langage devient calculable. GloVe (2014) affine avec une factorisation de matrice de co-occurrence globale.

Mais les embeddings de Word2Vec sont statiques — le mot “banque” a le même vecteur dans “banque de France” et “banc de sable”. ELMo (2018) introduit les embeddings contextuels : le vecteur d’un mot dépend de toute la phrase. Quelques mois plus tard, BERT (Google, 2018) perfectionne l’idée avec un pré-entraînement bidirectionnel masqué — le modèle apprend à prédire les mots masqués en regardant à gauche ET à droite. Résultat : BERT pulvérise 11 benchmarks NLP simultanément.

GPT (OpenAI, 2018) prend le chemin inverse : un modèle autoregressif, entraîné simplement à prédire le mot suivant. Pas de tâche spécifique, pas de masquage — juste prédire la suite. Quand le modèle atteint 175 milliards de paramètres (GPT-3, 2020), un phénomène inattendu émerge : le in-context learning. Le modèle peut résoudre des tâches nouvelles simplement en voyant quelques exemples dans le prompt, sans aucune mise à jour de ses poids.

En 2022, ChatGPT rend cette capacité accessible au grand public. En 2023, GPT-4 ajoute la multimodalité. En 2024, GPT-4o unifie voix, texte et vision dans un seul modèle multimodal natif, et o1 introduit le reasoning latent (chain-of-thought caché). En 2025, GPT-5 fusionne ces capacités, et o3 pousse le raisonnement à un niveau surhumain en mathématiques et en programmation compétitive. GPT-5.5 Pro (mai 2026) couronne cette trajectoire : multimodalité profonde, reasoning natif, agentic tool use, et fenêtres de contexte étendues — le tout dans un modèle unifié. Côté alternatif, Mamba 2 (State Space Duality) et Jamba (Mamba + Transformer + MoE hybride) proposent des alternatives à l’attention quadratique. DeepSeek R1 (2025) démontre qu’on peut entraîner un LLM à raisonner par pur RL, et DeepSeek V4 (2026) atteint la parité avec les meilleurs modèles propriétaires en restant open-weight. Gemini 3 Ultra (2026) inaugure les contextes à 10M tokens, ingérant des bibliothèques entières de code ou de littérature en une seule requête.

AnnéeContributionConcept
2003NNLM — language model avec réseau de neuronesBengio
2013Word2Vec (CBOW + Skip-gram) — embeddings de motsMikolov et al. (Google)
2014Seq2Seq + Attention — traduction neuronaleBahdanau et al.
2014GloVe — embeddings basés sur co-occurrence globalePennington et al.
2017Transformer — attention seule, pas de RNNVaswani et al.
2018ELMo — embeddings contextuels (BiLSTM)Peters et al.
2018BERT — masquage bidirectionnel, pré-entraînement + fine-tuningDevlin et al.
2018GPT — autoregressif, pré-entraînement + promptingRadford et al.
2019GPT-2 — 1.5B paramètres, génération de texteOpenAI
2019T5 — Text-to-Text Transfer Transformer, tout est texteRaffel et al. (Google)
2020GPT-3 — 175B, in-context learning, few-shotOpenAI
2021Codex — GPT-3 fine-tuné pour le code (GitHub Copilot)OpenAI
2022ChatGPT — RLHF, instruct, dialogueOpenAI
2022LLaMA — open-source, entraîné sur plus de tokensMeta
2023GPT-4 — multimodal, 1.8T paramètres (estimé)OpenAI
2024GPT-4o — multimodal natif voix-texte-vision, faible latenceOpenAI
2024Mamba — state space model, pas d’attention, linéaire en séquenceGu & Dao
2024o1 — reasoning model, chain-of-thought latentOpenAI
2025DeepSeek V3/R1 — MoE + reasoning RL, 671B params, ~$5.6MDeepSeek
2025GPT-5 — multimodal unifié + reasoning natifOpenAI
2025Qwen 3.6 — open-source 100B+, licence Apache 2.0Alibaba
2026GPT-5.5 Pro — multimodal profond + agentic tool use unifiéOpenAI
2026DeepSeek V4 — 1.2T MoE, MLA v2, parité avec GPT-5.5 ProDeepSeek
2026Llama 4 (Maverick/Scout) — MoE natif, 30T tokensMeta
2026Claude 4.7 — raisonnement long + computer use avancéAnthropic
2026Gemini 3 Ultra — 10M tokens contexte, multimodal native reasoningGoogle
2026Mistral Large 3 — open-weight 120B+, reasoning intégréMistral AI

← Vision par Ordinateur14AutoML & Meta-Learning →