Écosystème Actuel (mai 2026)
Research Production
| |
PyTorch ──torch.compile──► PyTorch (+ torch.export)
JAX TensorFlow (TF2/Keras 3)
(DeepMind, Google) vLLM / SGLang / TGI
ONNX Runtime
CoreML (Apple)
2024-2026 : La convergence Open/Closed
Les années 2024-2026 marquent un tournant. Pour la première fois, les modèles open-source rivalisent avec les modèles propriétaires sur les benchmarks de raisonnement, de code et de mathématiques.
DeepSeek V3/R1 (2025) secoue l’industrie : un modèle MoE de 671B paramètres (37B actifs par token) entraîné pour ~$5.6M — 10-20× moins cher que les modèles comparables. L’architecture Multi-head Latent Attention (MLA) compresse le KV-cache d’un facteur 10×. DeepSeek R1 introduit le chain-of-thought reasoning par pure RL sans données supervisées. DeepSeek V4 (2026) repousse l’échelle à 1.2T paramètres (52B actifs) avec MLA v2 et un routeur MoE affiné, atteignant la parité avec GPT-5.5 Pro sur les benchmarks de code et de mathématiques tout en restant open-weight.
OpenAI répond avec GPT-4o (2024, multimodal natif voix-texte-image), o1/o3 (2024-2025, reasoning via chain-of-thought latent), puis GPT-5 (fin 2025) et GPT-5.5 Pro (mai 2026) — intégrant nativement le reasoning, la multimodalité profonde, et l’usage d’outils (computer use, code execution) dans un modèle unifié.
Llama 3.1 (Meta, 2024) culmine avec une version 405B. Llama 4 (Maverick/Scout, 2026) introduit une architecture MoE native avec un routeur appris, des fenêtres de contexte million-tokens, et un pré-entraînement sur ~30T tokens multilingues.
Claude 4 (Anthropic, 2025) puis Claude 4.7 (2026) repoussent les limites du raisonnement long et du “computer use” — le modèle peut interagir avec une interface graphique, cliquer, taper, naviguer. L’utilisation d’agents autonomes devient le nouveau front de compétition.
Gemini 2.5 Pro (Google, 2025) établit des records sur les benchmarks de code (SWE-Bench) et de mathématiques, exploitant une fenêtre de contexte de 2M tokens. Gemini 3 Ultra (2026) triple la fenêtre à 10M tokens et introduit le native multimodality reasoning — raisonnement conjoint sur texte, images, vidéo et audio dans un espace latent unifié.
Qwen 3.6 (Alibaba, 2025-2026) et Mistral Large 3 (2026) confirment que la compétition open-source est mondiale, avec des modèles 100B+ sous licence Apache 2.0 rivalisant avec les leaders propriétaires.
La démocratisation par le PEFT et la quantization
Fine-tuner un modèle 70B ne nécessite plus un cluster. QLoRA + quantization 4-bit permet de fine-tuner sur un seul GPU 48 Go. Unsloth optimise les kernels LoRA, accélérant le fine-tuning de 2-3×. L’inférence locale devient viable : un MacBook M4 Ultra avec 256 Go de mémoire unifiée peut exécuter des modèles 70B quantizés.
L’essor des architectures alternatives
Mamba-2 (Gu & Dao, 2024) affine le state space model avec un formalisme de structured state space duality qui unifie attention linéaire et SSMs. Jamba (AI21 Labs, 2024) hybride Mamba + Transformer + MoE dans une seule architecture. Griffin (DeepMind, 2024) combine des couches récurrentes “Real-Gated Linear Recurrent Units” avec de l’attention locale, défiant le Transformer sur l’efficacité.
Inférence : du batch au streaming
SGLang (2024) émerge comme alternative à vLLM avec un RadixAttention qui met en cache automatiquement les préfixes communs entre requêtes. Speculative decoding devient standard : un petit modèle “draft” (3B) + un grand modèle “vérifieur” (70B) ÷ 2-3× la latence. Medusa ajoute des têtes de prédiction multiples pour prédire plusieurs tokens à la fois.
L’ère des agents
2025-2026 voit l’émergence des AI agents — des systèmes qui ne se contentent pas de répondre à une question, mais planifient et exécutent des séquences d’actions : rechercher sur le web, écrire et exécuter du code, appeler des APIs, manipuler des fichiers. MCP (Model Context Protocol, Anthropic) standardise la connexion entre LLMs et outils externes. Computer use (Claude, GPT-5+) permet au modèle de contrôler directement une interface graphique.
Hardware : la guerre des puces s’intensifie
Voir aussi History of Hardware pour la timeline complète et History of Distributed Systems pour l’infrastructure cluster.
NVIDIA B200 (Blackwell, 2024) est le premier GPU conçu pour l’inférence FP4, atteignant 20 PFLOPS. Le GB200 NVL72 assemble 72 GPU Blackwell dans un rack unique refroidi par liquide, avec 13.5 TB/s de bande passante interconnect — un supercalculateur en une boîte.
En face, AMD MI300X (2024) offre 192 Go HBM3 par GPU, et Intel Gaudi 3 (2024) devient une alternative crédible pour l’entraînement. Les clusters à 100k GPU deviennent réalité : xAI Colossus (Memphis, 2024) assemble 100 000 H100, Meta annonce un cluster équivalent pour Llama 4, et Microsoft/OpenAI planifient un supercalculateur “Stargate” à plusieurs centaines de milliers de GPU pour 2027.
Cerebras repousse l’approche wafer-scale avec le WSE-3 (2024) : 4 trillions de transistors sur une seule puce de 46 000 mm² — 900 000 cœurs, 44 Go de SRAM on-chip. Pas de communication inter-puce : tout tient sur le wafer. Groq affine son LPU (Language Processing Unit) pour une inférence déterministe à ~500 tokens/seconde, utilisé pour des applications temps réel.
La course est aussi géopolitique. Les restrictions d’exportation américaines sur les GPU avancés poussent la Chine à développer ses propres alternatives : Huawei Ascend 910C, Biren BR100. DeepSeek V3 a été entraîné sur un cluster de GPU NVIDIA H800 (version bridée du H100 pour la Chine), démontrant qu’on peut atteindre l’état de l’art avec du hardware contraint — à condition d’optimiser agressivement l’infrastructure logicielle.
L’open-source comme force de frappe
Hugging Face dépasse le million de modèles hébergés. OLMo 2 (AI2, 2025) publie l’intégralité de la chaîne : données (Dolma), code, poids, logs d’entraînement, et recettes. FineWeb (Hugging Face, 2025) construit le plus grand dataset public de qualité pour LLMs (15T tokens filtrés). La transparence devient un argument compétitif — les modèles fermés doivent justifier leur supériorité face à des modèles ouverts dont on peut inspecter les données d’entraînement et reproduire les résultats.
Recherche : PyTorch (90%), JAX (10%)
Production LLM : vLLM, SGLang, TensorRT-LLM
Entraînement : PyTorch FSDP, DeepSpeed ZeRO-3, Megatron-LM
Déploiement : ONNX Runtime, TensorRT, CoreML, llama.cpp
6.1. Librairies Python par Domaine
Données & Prétraitement
| Package | Description | pip install |
|---|---|---|
| NumPy | Calcul tensoriel vectorisé — socle de tout l’écosystème | numpy |
| Pandas | DataFrames, manipulation tabulaire, I/O (CSV, Parquet) | pandas |
| Polars | DataFrames haute performance (moteur Rust, lazy eval) | polars |
| 🤗 Datasets | Accès à ~200k datasets, streaming, mémoire mappée | datasets |
| scikit-learn | ML classique, preprocessing, metrics, pipelines | scikit-learn |
| SciPy | Optimisation, statistiques, algèbre linéaire creuse | scipy |
| DVC | Versionnement de datasets (Git-like) | dvc |
Visualisation & Suivi
| Package | Description | pip install |
|---|---|---|
| Matplotlib | Visualisation bas niveau, qualité publication | matplotlib |
| Seaborn | Visualisation statistique, basée sur matplotlib | seaborn |
| Plotly | Graphiques interactifs, dashboards | plotly |
| Weights & Biases | Experiment tracking, hyperparameter sweeps, dashboards | wandb |
| MLflow | Tracking + model registry + serving (Databricks) | mlflow |
| TensorBoard | Visualisation de graphes, métriques, embeddings | Intégré TF/PyTorch |
| Gradio | Interface web interactive pour modèles ML | gradio |
Modèles Pré-entraînés & Fine-Tuning
| Package | Description | pip install |
|---|---|---|
| 🤗 Transformers | API unifiée pour ~500k modèles, tokenizers, Trainer | transformers |
| 🤗 PEFT | LoRA, AdaLoRA, Prefix Tuning, IA³ | peft |
| 🤗 TRL | RLHF, DPO, SFT, GRPO — entraînement par préférences | trl |
| bitsandbytes | Quantization 4-bit/8-bit pour LLMs | bitsandbytes |
| Unsloth | LoRA fine-tuning accéléré 2-5×, kernels optimisés | unsloth |
| Axolotl | Fine-tuning LLM clé-en-main (config YAML) | axolotl (GitHub) |
| Sentence-Transformers | Embeddings de texte, similarité sémantique | sentence-transformers |
Inférence LLM
| Package | Description | pip install |
|---|---|---|
| vLLM | Inférence LLM optimisée (PagedAttention, continuous batching) | vllm |
| llama-cpp-python | Binding Python pour llama.cpp (CPU, quantization) | llama-cpp-python |
| SGLang | Inférence avec RadixAttention (cache de préfixes) | sglang |
| Ollama | Exécution locale de LLMs, API REST | ollama (app système) |
| TGI | Text Generation Inference — inférence HF production | Docker (Hugging Face) |
| litellm | Proxy unifié pour 100+ APIs LLM (OpenAI, Anthropic, etc.) | litellm |
Agents & RAG
| Package | Description | pip install |
|---|---|---|
| LangChain | Chaînes, agents, outils, RAG — orchestration LLM | langchain |
| LlamaIndex | Indexation de données (docs, DB, APIs) pour LLMs | llama-index |
| CrewAI | Orchestration multi-agents par rôles | crewai |
| AutoGen | Agents conversationnels (Microsoft Research) | autogen |
| MCP SDK | Model Context Protocol — connecter LLMs à des outils | mcp |
| DSPy | Optimisation automatique de prompts (Stanford) | dspy |
Distribué & Parallélisme
| Package | Description | pip install |
|---|---|---|
| DeepSpeed | ZeRO-1/2/3, optimisation mémoire pour LLMs, inference | deepspeed |
| Ray | Orchestration distribuée (train, tune, serve, data) | ray |
| Megatron-LM | Tensor + pipeline parallelism pour LLMs | GitHub (NVIDIA) |
| ColossalAI | Stratégies de parallélisme unifiées | colossalai |
| Horovod | Distributed training multi-framework (Uber) | horovod |
Optimisation & HPO
| Package | Description | pip install |
|---|---|---|
| Optuna | Hyperparameter optimization (Bayésien, TPE, pruning) | optuna |
| Ray Tune | HPO distribué, intégré à Ray | ray[tune] |
| Nevergrad | Optimisation sans gradient (Meta) | nevergrad |
| Hyperopt | Tree-structured Parzen Estimators | hyperopt |
| SMAC3 | Bayesian optimization (autoML) | smac |
Vision & Audio
| Package | Description | pip install |
|---|---|---|
| torchvision | Datasets, transforms, modèles pour la vision | torchvision |
| torchaudio | Datasets audio, transforms, I/O | torchaudio |
| OpenCV | Vision par ordinateur classique | opencv-python |
| Albumentations | Augmentation d’images rapide | albumentations |
| 🤗 Diffusers | Diffusion models (Stable Diffusion, Flux, Sana) | diffusers |
| Ultralytics | YOLO detection, segmentation, classification | ultralytics |
GNNs & Graphes
| Package | Description | pip install |
|---|---|---|
| PyTorch Geometric (PyG) | GNNs : GCN, GAT, GIN, message passing | torch-geometric |
| Deep Graph Library (DGL) | GNNs multi-backend (PyTorch, TF, MXNet) | dgl |
| NetworkX | Manipulation de graphes classiques | networkx |
Causalité & Statistiques
| Package | Description | pip install |
|---|---|---|
| DoWhy | Inférence causale (modéliser, estimer, réfuter) | dowhy |
| EconML | Causal ML pour l’économie (Microsoft) | econml |
| statsmodels | Régression, séries temporelles, tests stat. | statsmodels |
Utilitaires
| Package | Description | pip install |
|---|---|---|
| tqdm | Barres de progression | tqdm |
| Rich | Affichage console amélioré (tables, markdown, logs) | rich |
| Pydantic | Validation de données / configs | pydantic |
| Hydra / OmegaConf | Configuration hiérarchique YAML | hydra-core |
| einops | Opérations tensor flexibles (rearrange, reduce) | einops |
| accelerate | Abstraction multi-GPU/TPU (Hugging Face) | accelerate |
← Deep Learning Distribué • 06 • Graph Neural Networks (GNNs) →