L’Ère des Transformers (2017–aujourd’hui)
En 2017, huit chercheurs de Google publient un article au titre modeste : Attention Is All You Need. Ils proposent une architecture qui abandonne totalement les RNN — le mécanisme d’auto-attention permet à chaque mot de “regarder” tous les autres mots de la phrase en une seule opération. Le résultat est un modèle parallélisable (contrairement aux RNN séquentiels) et capable de capturer des dépendances à longue distance.
Pourquoi c’est révolutionnaire : Les RNN traitent le texte mot par mot (séquentiel). Le Transformer traite tous les mots simultanément (parallèle). Sur GPU, cela signifie des temps d’entraînement divisés par 10 à 100. C’est ce saut d’efficacité qui rend possible l’entraînement de modèles à 100+ milliards de paramètres.
De cette architecture naissent deux lignées complémentaires :
- BERT (Google, encoder-only) : comprend le langage en regardant à gauche et à droite de chaque mot — idéal pour la classification, le question-answering.
- GPT (OpenAI, decoder-only) : génère du texte mot à mot, de gauche à droite — idéal pour la génération, le dialogue, la créativité.
En 2020, le Transformer franchit la barrière du langage : le Vision Transformer (ViT) bat les CNN sur ImageNet en traitant les images comme des “phrases de patches”. Le Transformer devient l’architecture universelle — texte, image, vidéo, audio, protéines.
En 2022, ChatGPT met cette technologie entre les mains du grand public. Ce n’est plus une question de benchmark — c’est une révolution sociétale.
| Année | Contribution | Acteurs |
|---|---|---|
| 2017 | ”Attention Is All You Need” — Transformer, mécanisme d’attention sans RNN | Vaswani et al. (Google) |
| 2018 | BERT — pré-entraînement bidirectionnel, NLP state-of-the-art | Devlin et al. (Google) |
| 2018 | GPT — generative pre-training, autoregressif | Radford et al. (OpenAI) |
| 2019 | GPT-2 — génération de texte, controversé (trop dangereux à publier) | OpenAI |
| 2020 | GPT-3 — 175B paramètres, in-context learning, few-shot | OpenAI |
| 2020 | ViT (Vision Transformer) — Transformer pour la vision, pas de CNN | Dosovitskiy et al. (Google) |
| 2021 | DALL-E — génération d’images à partir de texte | OpenAI |
| 2022 | Stable Diffusion — open-source text-to-image | Stability AI |
| 2022 | ChatGPT — GPT-3.5 fine-tuné avec RLHF | OpenAI |
| 2023 | GPT-4 — multimodal, raisonnement avancé | OpenAI |
| 2023 | Llama 2 — open-source LLM performant | Meta |
| 2024 | Llama 3, Gemini 1.5, Claude 3 — compétition des LLMs | Meta, Google, Anthropic |
| 2025 | GPT-5, DeepSeek V3/R1, o3 — reasoning natif, MoE, pur RL | OpenAI, DeepSeek |
| 2026 | GPT-5.5 Pro, DeepSeek V4, Claude 4.7, Gemini 3 Ultra, Llama 4 | OpenAI, DeepSeek, Anthropic, Google, Meta |
Frameworks Transformers
| Framework | Description | Lien |
|---|---|---|
| Hugging Face Transformers | API unifiée pour ~10k modèles pré-entraînés | huggingface.co |
| vLLM | Inférence haute performance pour LLMs | vllm.ai |
| llama.cpp | Inférence LLM sur CPU (quantization) |
🔗 Voir aussi : Hardware Timeline, Distributed Systems
← Frameworks : La Guerre des Moteurs • 04 • Deep Learning Distribué →