Écosystème Actuel (mai 2026)

           Research                     Production
              |                            |
        PyTorch ──torch.compile──►   PyTorch (+ torch.export)
         JAX                         TensorFlow (TF2/Keras 3)
         (DeepMind, Google)          vLLM / SGLang / TGI
                                     ONNX Runtime
                                     CoreML (Apple)

2024-2026 : La convergence Open/Closed

Les années 2024-2026 marquent un tournant. Pour la première fois, les modèles open-source rivalisent avec les modèles propriétaires sur les benchmarks de raisonnement, de code et de mathématiques.

DeepSeek V3/R1 (2025) secoue l’industrie : un modèle MoE de 671B paramètres (37B actifs par token) entraîné pour ~$5.6M — 10-20× moins cher que les modèles comparables. L’architecture Multi-head Latent Attention (MLA) compresse le KV-cache d’un facteur 10×. DeepSeek R1 introduit le chain-of-thought reasoning par pure RL sans données supervisées. DeepSeek V4 (2026) repousse l’échelle à 1.2T paramètres (52B actifs) avec MLA v2 et un routeur MoE affiné, atteignant la parité avec GPT-5.5 Pro sur les benchmarks de code et de mathématiques tout en restant open-weight.

OpenAI répond avec GPT-4o (2024, multimodal natif voix-texte-image), o1/o3 (2024-2025, reasoning via chain-of-thought latent), puis GPT-5 (fin 2025) et GPT-5.5 Pro (mai 2026) — intégrant nativement le reasoning, la multimodalité profonde, et l’usage d’outils (computer use, code execution) dans un modèle unifié.

Llama 3.1 (Meta, 2024) culmine avec une version 405B. Llama 4 (Maverick/Scout, 2026) introduit une architecture MoE native avec un routeur appris, des fenêtres de contexte million-tokens, et un pré-entraînement sur ~30T tokens multilingues.

Claude 4 (Anthropic, 2025) puis Claude 4.7 (2026) repoussent les limites du raisonnement long et du “computer use” — le modèle peut interagir avec une interface graphique, cliquer, taper, naviguer. L’utilisation d’agents autonomes devient le nouveau front de compétition.

Gemini 2.5 Pro (Google, 2025) établit des records sur les benchmarks de code (SWE-Bench) et de mathématiques, exploitant une fenêtre de contexte de 2M tokens. Gemini 3 Ultra (2026) triple la fenêtre à 10M tokens et introduit le native multimodality reasoning — raisonnement conjoint sur texte, images, vidéo et audio dans un espace latent unifié.

Qwen 3.6 (Alibaba, 2025-2026) et Mistral Large 3 (2026) confirment que la compétition open-source est mondiale, avec des modèles 100B+ sous licence Apache 2.0 rivalisant avec les leaders propriétaires.

La démocratisation par le PEFT et la quantization

Fine-tuner un modèle 70B ne nécessite plus un cluster. QLoRA + quantization 4-bit permet de fine-tuner sur un seul GPU 48 Go. Unsloth optimise les kernels LoRA, accélérant le fine-tuning de 2-3×. L’inférence locale devient viable : un MacBook M4 Ultra avec 256 Go de mémoire unifiée peut exécuter des modèles 70B quantizés.

L’essor des architectures alternatives

Mamba-2 (Gu & Dao, 2024) affine le state space model avec un formalisme de structured state space duality qui unifie attention linéaire et SSMs. Jamba (AI21 Labs, 2024) hybride Mamba + Transformer + MoE dans une seule architecture. Griffin (DeepMind, 2024) combine des couches récurrentes “Real-Gated Linear Recurrent Units” avec de l’attention locale, défiant le Transformer sur l’efficacité.

Inférence : du batch au streaming

SGLang (2024) émerge comme alternative à vLLM avec un RadixAttention qui met en cache automatiquement les préfixes communs entre requêtes. Speculative decoding devient standard : un petit modèle “draft” (3B) + un grand modèle “vérifieur” (70B) ÷ 2-3× la latence. Medusa ajoute des têtes de prédiction multiples pour prédire plusieurs tokens à la fois.

L’ère des agents

2025-2026 voit l’émergence des AI agents — des systèmes qui ne se contentent pas de répondre à une question, mais planifient et exécutent des séquences d’actions : rechercher sur le web, écrire et exécuter du code, appeler des APIs, manipuler des fichiers. MCP (Model Context Protocol, Anthropic) standardise la connexion entre LLMs et outils externes. Computer use (Claude, GPT-5+) permet au modèle de contrôler directement une interface graphique.

Hardware : la guerre des puces s’intensifie

Voir aussi History of Hardware pour la timeline complète et History of Distributed Systems pour l’infrastructure cluster.

NVIDIA B200 (Blackwell, 2024) est le premier GPU conçu pour l’inférence FP4, atteignant 20 PFLOPS. Le GB200 NVL72 assemble 72 GPU Blackwell dans un rack unique refroidi par liquide, avec 13.5 TB/s de bande passante interconnect — un supercalculateur en une boîte.

En face, AMD MI300X (2024) offre 192 Go HBM3 par GPU, et Intel Gaudi 3 (2024) devient une alternative crédible pour l’entraînement. Les clusters à 100k GPU deviennent réalité : xAI Colossus (Memphis, 2024) assemble 100 000 H100, Meta annonce un cluster équivalent pour Llama 4, et Microsoft/OpenAI planifient un supercalculateur “Stargate” à plusieurs centaines de milliers de GPU pour 2027.

Cerebras repousse l’approche wafer-scale avec le WSE-3 (2024) : 4 trillions de transistors sur une seule puce de 46 000 mm² — 900 000 cœurs, 44 Go de SRAM on-chip. Pas de communication inter-puce : tout tient sur le wafer. Groq affine son LPU (Language Processing Unit) pour une inférence déterministe à ~500 tokens/seconde, utilisé pour des applications temps réel.

La course est aussi géopolitique. Les restrictions d’exportation américaines sur les GPU avancés poussent la Chine à développer ses propres alternatives : Huawei Ascend 910C, Biren BR100. DeepSeek V3 a été entraîné sur un cluster de GPU NVIDIA H800 (version bridée du H100 pour la Chine), démontrant qu’on peut atteindre l’état de l’art avec du hardware contraint — à condition d’optimiser agressivement l’infrastructure logicielle.

L’open-source comme force de frappe

Hugging Face dépasse le million de modèles hébergés. OLMo 2 (AI2, 2025) publie l’intégralité de la chaîne : données (Dolma), code, poids, logs d’entraînement, et recettes. FineWeb (Hugging Face, 2025) construit le plus grand dataset public de qualité pour LLMs (15T tokens filtrés). La transparence devient un argument compétitif — les modèles fermés doivent justifier leur supériorité face à des modèles ouverts dont on peut inspecter les données d’entraînement et reproduire les résultats.

Recherche : PyTorch (90%), JAX (10%)

Production LLM : vLLM, SGLang, TensorRT-LLM

Entraînement : PyTorch FSDP, DeepSpeed ZeRO-3, Megatron-LM

Déploiement : ONNX Runtime, TensorRT, CoreML, llama.cpp

6.1. Librairies Python par Domaine

Données & Prétraitement

PackageDescriptionpip install
NumPyCalcul tensoriel vectorisé — socle de tout l’écosystèmenumpy
PandasDataFrames, manipulation tabulaire, I/O (CSV, Parquet)pandas
PolarsDataFrames haute performance (moteur Rust, lazy eval)polars
🤗 DatasetsAccès à ~200k datasets, streaming, mémoire mappéedatasets
scikit-learnML classique, preprocessing, metrics, pipelinesscikit-learn
SciPyOptimisation, statistiques, algèbre linéaire creusescipy
DVCVersionnement de datasets (Git-like)dvc

Visualisation & Suivi

PackageDescriptionpip install
MatplotlibVisualisation bas niveau, qualité publicationmatplotlib
SeabornVisualisation statistique, basée sur matplotlibseaborn
PlotlyGraphiques interactifs, dashboardsplotly
Weights & BiasesExperiment tracking, hyperparameter sweeps, dashboardswandb
MLflowTracking + model registry + serving (Databricks)mlflow
TensorBoardVisualisation de graphes, métriques, embeddingsIntégré TF/PyTorch
GradioInterface web interactive pour modèles MLgradio

Modèles Pré-entraînés & Fine-Tuning

PackageDescriptionpip install
🤗 TransformersAPI unifiée pour ~500k modèles, tokenizers, Trainertransformers
🤗 PEFTLoRA, AdaLoRA, Prefix Tuning, IA³peft
🤗 TRLRLHF, DPO, SFT, GRPO — entraînement par préférencestrl
bitsandbytesQuantization 4-bit/8-bit pour LLMsbitsandbytes
UnslothLoRA fine-tuning accéléré 2-5×, kernels optimisésunsloth
AxolotlFine-tuning LLM clé-en-main (config YAML)axolotl (GitHub)
Sentence-TransformersEmbeddings de texte, similarité sémantiquesentence-transformers

Inférence LLM

PackageDescriptionpip install
vLLMInférence LLM optimisée (PagedAttention, continuous batching)vllm
llama-cpp-pythonBinding Python pour llama.cpp (CPU, quantization)llama-cpp-python
SGLangInférence avec RadixAttention (cache de préfixes)sglang
OllamaExécution locale de LLMs, API RESTollama (app système)
TGIText Generation Inference — inférence HF productionDocker (Hugging Face)
litellmProxy unifié pour 100+ APIs LLM (OpenAI, Anthropic, etc.)litellm

Agents & RAG

PackageDescriptionpip install
LangChainChaînes, agents, outils, RAG — orchestration LLMlangchain
LlamaIndexIndexation de données (docs, DB, APIs) pour LLMsllama-index
CrewAIOrchestration multi-agents par rôlescrewai
AutoGenAgents conversationnels (Microsoft Research)autogen
MCP SDKModel Context Protocol — connecter LLMs à des outilsmcp
DSPyOptimisation automatique de prompts (Stanford)dspy

Distribué & Parallélisme

PackageDescriptionpip install
DeepSpeedZeRO-1/2/3, optimisation mémoire pour LLMs, inferencedeepspeed
RayOrchestration distribuée (train, tune, serve, data)ray
Megatron-LMTensor + pipeline parallelism pour LLMsGitHub (NVIDIA)
ColossalAIStratégies de parallélisme unifiéescolossalai
HorovodDistributed training multi-framework (Uber)horovod

Optimisation & HPO

PackageDescriptionpip install
OptunaHyperparameter optimization (Bayésien, TPE, pruning)optuna
Ray TuneHPO distribué, intégré à Rayray[tune]
NevergradOptimisation sans gradient (Meta)nevergrad
HyperoptTree-structured Parzen Estimatorshyperopt
SMAC3Bayesian optimization (autoML)smac

Vision & Audio

PackageDescriptionpip install
torchvisionDatasets, transforms, modèles pour la visiontorchvision
torchaudioDatasets audio, transforms, I/Otorchaudio
OpenCVVision par ordinateur classiqueopencv-python
AlbumentationsAugmentation d’images rapidealbumentations
🤗 DiffusersDiffusion models (Stable Diffusion, Flux, Sana)diffusers
UltralyticsYOLO detection, segmentation, classificationultralytics

GNNs & Graphes

PackageDescriptionpip install
PyTorch Geometric (PyG)GNNs : GCN, GAT, GIN, message passingtorch-geometric
Deep Graph Library (DGL)GNNs multi-backend (PyTorch, TF, MXNet)dgl
NetworkXManipulation de graphes classiquesnetworkx

Causalité & Statistiques

PackageDescriptionpip install
DoWhyInférence causale (modéliser, estimer, réfuter)dowhy
EconMLCausal ML pour l’économie (Microsoft)econml
statsmodelsRégression, séries temporelles, tests stat.statsmodels

Utilitaires

PackageDescriptionpip install
tqdmBarres de progressiontqdm
RichAffichage console amélioré (tables, markdown, logs)rich
PydanticValidation de données / configspydantic
Hydra / OmegaConfConfiguration hiérarchique YAMLhydra-core
einopsOpérations tensor flexibles (rearrange, reduce)einops
accelerateAbstraction multi-GPU/TPU (Hugging Face)accelerate

← Deep Learning Distribué06Graph Neural Networks (GNNs) →