L’Ère des Transformers (2017–aujourd’hui)

En 2017, huit chercheurs de Google publient un article au titre modeste : Attention Is All You Need. Ils proposent une architecture qui abandonne totalement les RNN — le mécanisme d’auto-attention permet à chaque mot de “regarder” tous les autres mots de la phrase en une seule opération. Le résultat est un modèle parallélisable (contrairement aux RNN séquentiels) et capable de capturer des dépendances à longue distance.

Pourquoi c’est révolutionnaire : Les RNN traitent le texte mot par mot (séquentiel). Le Transformer traite tous les mots simultanément (parallèle). Sur GPU, cela signifie des temps d’entraînement divisés par 10 à 100. C’est ce saut d’efficacité qui rend possible l’entraînement de modèles à 100+ milliards de paramètres.

De cette architecture naissent deux lignées complémentaires :

BERT (Google, encoder-only) : comprend le langage en regardant à gauche et à droite de chaque mot — idéal pour la classification, le question-answering.
GPT (OpenAI, decoder-only) : génère du texte mot à mot, de gauche à droite — idéal pour la génération, le dialogue, la créativité.

En 2020, le Transformer franchit la barrière du langage : le Vision Transformer (ViT) bat les CNN sur ImageNet en traitant les images comme des “phrases de patches”. Le Transformer devient l’architecture universelle — texte, image, vidéo, audio, protéines.

En 2022, ChatGPT met cette technologie entre les mains du grand public. Ce n’est plus une question de benchmark — c’est une révolution sociétale.

Année	Contribution	Acteurs
2017	”Attention Is All You Need” — Transformer, mécanisme d’attention sans RNN	Vaswani et al. (Google)
2018	BERT — pré-entraînement bidirectionnel, NLP state-of-the-art	Devlin et al. (Google)
2018	GPT — generative pre-training, autoregressif	Radford et al. (OpenAI)
2019	GPT-2 — génération de texte, controversé (trop dangereux à publier)	OpenAI
2020	GPT-3 — 175B paramètres, in-context learning, few-shot	OpenAI
2020	ViT (Vision Transformer) — Transformer pour la vision, pas de CNN	Dosovitskiy et al. (Google)
2021	DALL-E — génération d’images à partir de texte	OpenAI
2022	Stable Diffusion — open-source text-to-image	Stability AI
2022	ChatGPT — GPT-3.5 fine-tuné avec RLHF	OpenAI
2023	GPT-4 — multimodal, raisonnement avancé	OpenAI
2023	Llama 2 — open-source LLM performant	Meta
2024	Llama 3, Gemini 1.5, Claude 3 — compétition des LLMs	Meta, Google, Anthropic
2025	GPT-5, DeepSeek V3/R1, o3 — reasoning natif, MoE, pur RL	OpenAI, DeepSeek
2026	GPT-5.5 Pro, DeepSeek V4, Claude 4.7, Gemini 3 Ultra, Llama 4	OpenAI, DeepSeek, Anthropic, Google, Meta

Frameworks Transformers

Framework	Description	Lien
Hugging Face Transformers	API unifiée pour ~10k modèles pré-entraînés	huggingface.co
vLLM	Inférence haute performance pour LLMs	vllm.ai
llama.cpp	Inférence LLM sur CPU (quantization)

🔗 Voir aussi : Hardware Timeline, Distributed Systems

← Frameworks : La Guerre des Moteurs • 04 • Deep Learning Distribué →

ArtNotes

Explorateur

04 - L'Ère des Transformers (2017–aujourd'hui)

L’Ère des Transformers (2017–aujourd’hui)

Frameworks Transformers

Vue Graphique

Table des Matières

Liens retour