L’Ère des Transformers (2017–aujourd’hui)

En 2017, huit chercheurs de Google publient un article au titre modeste : Attention Is All You Need. Ils proposent une architecture qui abandonne totalement les RNN — le mécanisme d’auto-attention permet à chaque mot de “regarder” tous les autres mots de la phrase en une seule opération. Le résultat est un modèle parallélisable (contrairement aux RNN séquentiels) et capable de capturer des dépendances à longue distance.

Pourquoi c’est révolutionnaire : Les RNN traitent le texte mot par mot (séquentiel). Le Transformer traite tous les mots simultanément (parallèle). Sur GPU, cela signifie des temps d’entraînement divisés par 10 à 100. C’est ce saut d’efficacité qui rend possible l’entraînement de modèles à 100+ milliards de paramètres.

De cette architecture naissent deux lignées complémentaires :

  • BERT (Google, encoder-only) : comprend le langage en regardant à gauche et à droite de chaque mot — idéal pour la classification, le question-answering.
  • GPT (OpenAI, decoder-only) : génère du texte mot à mot, de gauche à droite — idéal pour la génération, le dialogue, la créativité.

En 2020, le Transformer franchit la barrière du langage : le Vision Transformer (ViT) bat les CNN sur ImageNet en traitant les images comme des “phrases de patches”. Le Transformer devient l’architecture universelle — texte, image, vidéo, audio, protéines.

En 2022, ChatGPT met cette technologie entre les mains du grand public. Ce n’est plus une question de benchmark — c’est une révolution sociétale.

AnnéeContributionActeurs
2017”Attention Is All You Need” — Transformer, mécanisme d’attention sans RNNVaswani et al. (Google)
2018BERT — pré-entraînement bidirectionnel, NLP state-of-the-artDevlin et al. (Google)
2018GPT — generative pre-training, autoregressifRadford et al. (OpenAI)
2019GPT-2 — génération de texte, controversé (trop dangereux à publier)OpenAI
2020GPT-3 — 175B paramètres, in-context learning, few-shotOpenAI
2020ViT (Vision Transformer) — Transformer pour la vision, pas de CNNDosovitskiy et al. (Google)
2021DALL-E — génération d’images à partir de texteOpenAI
2022Stable Diffusion — open-source text-to-imageStability AI
2022ChatGPT — GPT-3.5 fine-tuné avec RLHFOpenAI
2023GPT-4 — multimodal, raisonnement avancéOpenAI
2023Llama 2 — open-source LLM performantMeta
2024Llama 3, Gemini 1.5, Claude 3 — compétition des LLMsMeta, Google, Anthropic
2025GPT-5, DeepSeek V3/R1, o3 — reasoning natif, MoE, pur RLOpenAI, DeepSeek
2026GPT-5.5 Pro, DeepSeek V4, Claude 4.7, Gemini 3 Ultra, Llama 4OpenAI, DeepSeek, Anthropic, Google, Meta

Frameworks Transformers

FrameworkDescriptionLien
Hugging Face TransformersAPI unifiée pour ~10k modèles pré-entraînéshuggingface.co
vLLMInférence haute performance pour LLMsvllm.ai
llama.cppInférence LLM sur CPU (quantization)

🔗 Voir aussi : Hardware Timeline, Distributed Systems

← Frameworks : La Guerre des Moteurs04Deep Learning Distribué →