Modèles Génératifs
Pendant des décennies, les modèles de machine learning ont été discriminatifs — ils savent classifier, mais pas créer. Les modèles génératifs apprennent la distribution des données et peuvent en échantillonner de nouveaux exemples.
La première vague est celle des GANs (Goodfellow et al., 2014). L’idée est théâtrale : un générateur crée des images fausses, un discriminateur essaie de distinguer les vraies des fausses. Les deux s’entraînent en opposition — le générateur apprend à tromper, le discriminateur à démasquer. Le résultat est magique, mais l’entraînement est instable — oscillations, mode collapse, hyperparamètres capricieux. WGAN (2017) stabilise avec la distance de Wasserstein. StyleGAN (2019) introduit un contrôle fin de la génération (style mixing), produisant des visages photoréalistes indiscernables de photos réelles.
Pendant ce temps, une approche radicalement différente émerge : les modèles de diffusion (DDPM, Ho et al., 2020). L’idée est d’apprendre à débruiter — on ajoute progressivement du bruit à une image jusqu’à ce qu’elle devienne du bruit pur, puis on entraîne un réseau à inverser le processus. Chaque étape de débruitage est simple (prédire le bruit ajouté), mais il en faut des centaines pour générer une image. Stable Diffusion (2022) accélère en opérant dans un espace latent compressé (VAE + UNet), rendant la génération accessible sur un GPU grand public.
En 2024, les modèles de diffusion ont dépassé les GANs sur toutes les métriques — qualité, diversité, stabilité d’entraînement. Stable Diffusion 3 et Flux (Black Forest Labs, 2024-2025) portent la génération d’images à un niveau de photoréalisme inédit. La génération vidéo (Sora, Runway Gen-3, Kling, 2024-2025) devient le nouveau front, avec des modèles capables de produire des scènes d’une minute cohérentes en mouvement, éclairage et physique.
| Année | Contribution | Concept |
|---|---|---|
| 2013 | VAE (Variational Autoencoder) — génération latente continue | Kingma & Welling |
| 2014 | GAN (Generative Adversarial Network) — générateur vs discriminateur | Goodfellow et al. |
| 2015 | DCGAN — GAN convolutionnel stable | Radford et al. |
| 2017 | WGAN — Wasserstein GAN, résout l’instabilité du training | Arjovsky et al. |
| 2019 | StyleGAN — génération d’images haute résolution contrôlable | Karras et al. (NVIDIA) |
| 2020 | DDPM (Denoising Diffusion Probabilistic Models) — diffusion, éclipse les GANs | Ho et al. |
| 2021 | DALL-E — text-to-image avec VQ-VAE + Transformer | OpenAI |
| 2022 | Stable Diffusion — diffusion dans l’espace latent (open-source) | Rombach et al. |
| 2023 | Midjourney v5/v6 — photoréalisme, standard créatif | Midjourney |
| 2024 | Sora — génération vidéo (diffusion + transformer) | OpenAI |
| 2024 | Stable Video Diffusion — vidéo open-source | Stability AI |
← Reinforcement Learning • 12 • Vision par Ordinateur →