Écosystème Actuel (mai 2026)

           Research                     Production
              |                            |
        PyTorch ──torch.compile──►   PyTorch (+ torch.export)
         JAX                         TensorFlow (TF2/Keras 3)
         (DeepMind, Google)          vLLM / SGLang / TGI
                                     ONNX Runtime
                                     CoreML (Apple)

2024-2026 : La convergence Open/Closed

Les années 2024-2026 marquent un tournant. Pour la première fois, les modèles open-source rivalisent avec les modèles propriétaires sur les benchmarks de raisonnement, de code et de mathématiques.

DeepSeek V3/R1 (2025) secoue l’industrie : un modèle MoE de 671B paramètres (37B actifs par token) entraîné pour ~$5.6M — 10-20× moins cher que les modèles comparables. L’architecture Multi-head Latent Attention (MLA) compresse le KV-cache d’un facteur 10×. DeepSeek R1 introduit le chain-of-thought reasoning par pure RL sans données supervisées. DeepSeek V4 (2026) repousse l’échelle à 1.2T paramètres (52B actifs) avec MLA v2 et un routeur MoE affiné, atteignant la parité avec GPT-5.5 Pro sur les benchmarks de code et de mathématiques tout en restant open-weight.

OpenAI répond avec GPT-4o (2024, multimodal natif voix-texte-image), o1/o3 (2024-2025, reasoning via chain-of-thought latent), puis GPT-5 (fin 2025) et GPT-5.5 Pro (mai 2026) — intégrant nativement le reasoning, la multimodalité profonde, et l’usage d’outils (computer use, code execution) dans un modèle unifié.

Llama 3.1 (Meta, 2024) culmine avec une version 405B. Llama 4 (Maverick/Scout, 2026) introduit une architecture MoE native avec un routeur appris, des fenêtres de contexte million-tokens, et un pré-entraînement sur ~30T tokens multilingues.

Claude 4 (Anthropic, 2025) puis Claude 4.7 (2026) repoussent les limites du raisonnement long et du “computer use” — le modèle peut interagir avec une interface graphique, cliquer, taper, naviguer. L’utilisation d’agents autonomes devient le nouveau front de compétition.

Gemini 2.5 Pro (Google, 2025) établit des records sur les benchmarks de code (SWE-Bench) et de mathématiques, exploitant une fenêtre de contexte de 2M tokens. Gemini 3 Ultra (2026) triple la fenêtre à 10M tokens et introduit le native multimodality reasoning — raisonnement conjoint sur texte, images, vidéo et audio dans un espace latent unifié.

Qwen 3.6 (Alibaba, 2025-2026) et Mistral Large 3 (2026) confirment que la compétition open-source est mondiale, avec des modèles 100B+ sous licence Apache 2.0 rivalisant avec les leaders propriétaires.

La démocratisation par le PEFT et la quantization

Fine-tuner un modèle 70B ne nécessite plus un cluster. QLoRA + quantization 4-bit permet de fine-tuner sur un seul GPU 48 Go. Unsloth optimise les kernels LoRA, accélérant le fine-tuning de 2-3×. L’inférence locale devient viable : un MacBook M4 Ultra avec 256 Go de mémoire unifiée peut exécuter des modèles 70B quantizés.

L’essor des architectures alternatives

Mamba-2 (Gu & Dao, 2024) affine le state space model avec un formalisme de structured state space duality qui unifie attention linéaire et SSMs. Jamba (AI21 Labs, 2024) hybride Mamba + Transformer + MoE dans une seule architecture. Griffin (DeepMind, 2024) combine des couches récurrentes “Real-Gated Linear Recurrent Units” avec de l’attention locale, défiant le Transformer sur l’efficacité.

Inférence : du batch au streaming

SGLang (2024) émerge comme alternative à vLLM avec un RadixAttention qui met en cache automatiquement les préfixes communs entre requêtes. Speculative decoding devient standard : un petit modèle “draft” (3B) + un grand modèle “vérifieur” (70B) ÷ 2-3× la latence. Medusa ajoute des têtes de prédiction multiples pour prédire plusieurs tokens à la fois.

L’ère des agents

2025-2026 voit l’émergence des AI agents — des systèmes qui ne se contentent pas de répondre à une question, mais planifient et exécutent des séquences d’actions : rechercher sur le web, écrire et exécuter du code, appeler des APIs, manipuler des fichiers. MCP (Model Context Protocol, Anthropic) standardise la connexion entre LLMs et outils externes. Computer use (Claude, GPT-5+) permet au modèle de contrôler directement une interface graphique.

Hardware : la guerre des puces s’intensifie

Voir aussi History of Hardware pour la timeline complète et History of Distributed Systems pour l’infrastructure cluster.

NVIDIA B200 (Blackwell, 2024) est le premier GPU conçu pour l’inférence FP4, atteignant 20 PFLOPS. Le GB200 NVL72 assemble 72 GPU Blackwell dans un rack unique refroidi par liquide, avec 13.5 TB/s de bande passante interconnect — un supercalculateur en une boîte.

En face, AMD MI300X (2024) offre 192 Go HBM3 par GPU, et Intel Gaudi 3 (2024) devient une alternative crédible pour l’entraînement. Les clusters à 100k GPU deviennent réalité : xAI Colossus (Memphis, 2024) assemble 100 000 H100, Meta annonce un cluster équivalent pour Llama 4, et Microsoft/OpenAI planifient un supercalculateur “Stargate” à plusieurs centaines de milliers de GPU pour 2027.

Cerebras repousse l’approche wafer-scale avec le WSE-3 (2024) : 4 trillions de transistors sur une seule puce de 46 000 mm² — 900 000 cœurs, 44 Go de SRAM on-chip. Pas de communication inter-puce : tout tient sur le wafer. Groq affine son LPU (Language Processing Unit) pour une inférence déterministe à ~500 tokens/seconde, utilisé pour des applications temps réel.

La course est aussi géopolitique. Les restrictions d’exportation américaines sur les GPU avancés poussent la Chine à développer ses propres alternatives : Huawei Ascend 910C, Biren BR100. DeepSeek V3 a été entraîné sur un cluster de GPU NVIDIA H800 (version bridée du H100 pour la Chine), démontrant qu’on peut atteindre l’état de l’art avec du hardware contraint — à condition d’optimiser agressivement l’infrastructure logicielle.

L’open-source comme force de frappe

Hugging Face dépasse le million de modèles hébergés. OLMo 2 (AI2, 2025) publie l’intégralité de la chaîne : données (Dolma), code, poids, logs d’entraînement, et recettes. FineWeb (Hugging Face, 2025) construit le plus grand dataset public de qualité pour LLMs (15T tokens filtrés). La transparence devient un argument compétitif — les modèles fermés doivent justifier leur supériorité face à des modèles ouverts dont on peut inspecter les données d’entraînement et reproduire les résultats.

Recherche : PyTorch (90%), JAX (10%)

Production LLM : vLLM, SGLang, TensorRT-LLM

Entraînement : PyTorch FSDP, DeepSpeed ZeRO-3, Megatron-LM

Déploiement : ONNX Runtime, TensorRT, CoreML, llama.cpp

6.1. Librairies Python par Domaine

Données & Prétraitement

Package	Description	`pip install`
NumPy	Calcul tensoriel vectorisé — socle de tout l’écosystème	`numpy`
Pandas	DataFrames, manipulation tabulaire, I/O (CSV, Parquet)	`pandas`
Polars	DataFrames haute performance (moteur Rust, lazy eval)	`polars`
🤗 Datasets	Accès à ~200k datasets, streaming, mémoire mappée	`datasets`
scikit-learn	ML classique, preprocessing, metrics, pipelines	`scikit-learn`
SciPy	Optimisation, statistiques, algèbre linéaire creuse	`scipy`
DVC	Versionnement de datasets (Git-like)	`dvc`

Visualisation & Suivi

Package	Description	`pip install`
Matplotlib	Visualisation bas niveau, qualité publication	`matplotlib`
Seaborn	Visualisation statistique, basée sur matplotlib	`seaborn`
Plotly	Graphiques interactifs, dashboards	`plotly`
Weights & Biases	Experiment tracking, hyperparameter sweeps, dashboards	`wandb`
MLflow	Tracking + model registry + serving (Databricks)	`mlflow`
TensorBoard	Visualisation de graphes, métriques, embeddings	Intégré TF/PyTorch
Gradio	Interface web interactive pour modèles ML	`gradio`

Modèles Pré-entraînés & Fine-Tuning

Package	Description	`pip install`
🤗 Transformers	API unifiée pour ~500k modèles, tokenizers, Trainer	`transformers`
🤗 PEFT	LoRA, AdaLoRA, Prefix Tuning, IA³	`peft`
🤗 TRL	RLHF, DPO, SFT, GRPO — entraînement par préférences	`trl`
bitsandbytes	Quantization 4-bit/8-bit pour LLMs	`bitsandbytes`
Unsloth	LoRA fine-tuning accéléré 2-5×, kernels optimisés	`unsloth`
Axolotl	Fine-tuning LLM clé-en-main (config YAML)	`axolotl` (GitHub)
Sentence-Transformers	Embeddings de texte, similarité sémantique	`sentence-transformers`

Inférence LLM

Package	Description	`pip install`
vLLM	Inférence LLM optimisée (PagedAttention, continuous batching)	`vllm`
llama-cpp-python	Binding Python pour llama.cpp (CPU, quantization)	`llama-cpp-python`
SGLang	Inférence avec RadixAttention (cache de préfixes)	`sglang`
Ollama	Exécution locale de LLMs, API REST	`ollama` (app système)
TGI	Text Generation Inference — inférence HF production	Docker (Hugging Face)
litellm	Proxy unifié pour 100+ APIs LLM (OpenAI, Anthropic, etc.)	`litellm`

Agents & RAG

Package	Description	`pip install`
LangChain	Chaînes, agents, outils, RAG — orchestration LLM	`langchain`
LlamaIndex	Indexation de données (docs, DB, APIs) pour LLMs	`llama-index`
CrewAI	Orchestration multi-agents par rôles	`crewai`
AutoGen	Agents conversationnels (Microsoft Research)	`autogen`
MCP SDK	Model Context Protocol — connecter LLMs à des outils	`mcp`
DSPy	Optimisation automatique de prompts (Stanford)	`dspy`

Distribué & Parallélisme

Package	Description	`pip install`
DeepSpeed	ZeRO-1/2/3, optimisation mémoire pour LLMs, inference	`deepspeed`
Ray	Orchestration distribuée (train, tune, serve, data)	`ray`
Megatron-LM	Tensor + pipeline parallelism pour LLMs	GitHub (NVIDIA)
ColossalAI	Stratégies de parallélisme unifiées	`colossalai`
Horovod	Distributed training multi-framework (Uber)	`horovod`

Optimisation & HPO

Package	Description	`pip install`
Optuna	Hyperparameter optimization (Bayésien, TPE, pruning)	`optuna`
Ray Tune	HPO distribué, intégré à Ray	`ray[tune]`
Nevergrad	Optimisation sans gradient (Meta)	`nevergrad`
Hyperopt	Tree-structured Parzen Estimators	`hyperopt`
SMAC3	Bayesian optimization (autoML)	`smac`

Vision & Audio

Package	Description	`pip install`
torchvision	Datasets, transforms, modèles pour la vision	`torchvision`
torchaudio	Datasets audio, transforms, I/O	`torchaudio`
OpenCV	Vision par ordinateur classique	`opencv-python`
Albumentations	Augmentation d’images rapide	`albumentations`
🤗 Diffusers	Diffusion models (Stable Diffusion, Flux, Sana)	`diffusers`
Ultralytics	YOLO detection, segmentation, classification	`ultralytics`

GNNs & Graphes

Package	Description	`pip install`
PyTorch Geometric (PyG)	GNNs : GCN, GAT, GIN, message passing	`torch-geometric`
Deep Graph Library (DGL)	GNNs multi-backend (PyTorch, TF, MXNet)	`dgl`
NetworkX	Manipulation de graphes classiques	`networkx`

Causalité & Statistiques

Package	Description	`pip install`
DoWhy	Inférence causale (modéliser, estimer, réfuter)	`dowhy`
EconML	Causal ML pour l’économie (Microsoft)	`econml`
statsmodels	Régression, séries temporelles, tests stat.	`statsmodels`

Utilitaires

Package	Description	`pip install`
tqdm	Barres de progression	`tqdm`
Rich	Affichage console amélioré (tables, markdown, logs)	`rich`
Pydantic	Validation de données / configs	`pydantic`
Hydra / OmegaConf	Configuration hiérarchique YAML	`hydra-core`
einops	Opérations tensor flexibles (rearrange, reduce)	`einops`
accelerate	Abstraction multi-GPU/TPU (Hugging Face)	`accelerate`

← Deep Learning Distribué • 06 • Graph Neural Networks (GNNs) →

ArtNotes

Explorateur

06 - Écosystème Actuel (mai 2026)