Modèles Génératifs

Pendant des décennies, les modèles de machine learning ont été discriminatifs — ils savent classifier, mais pas créer. Les modèles génératifs apprennent la distribution des données et peuvent en échantillonner de nouveaux exemples.

La première vague est celle des GANs (Goodfellow et al., 2014). L’idée est théâtrale : un générateur crée des images fausses, un discriminateur essaie de distinguer les vraies des fausses. Les deux s’entraînent en opposition — le générateur apprend à tromper, le discriminateur à démasquer. Le résultat est magique, mais l’entraînement est instable — oscillations, mode collapse, hyperparamètres capricieux. WGAN (2017) stabilise avec la distance de Wasserstein. StyleGAN (2019) introduit un contrôle fin de la génération (style mixing), produisant des visages photoréalistes indiscernables de photos réelles.

Pendant ce temps, une approche radicalement différente émerge : les modèles de diffusion (DDPM, Ho et al., 2020). L’idée est d’apprendre à débruiter — on ajoute progressivement du bruit à une image jusqu’à ce qu’elle devienne du bruit pur, puis on entraîne un réseau à inverser le processus. Chaque étape de débruitage est simple (prédire le bruit ajouté), mais il en faut des centaines pour générer une image. Stable Diffusion (2022) accélère en opérant dans un espace latent compressé (VAE + UNet), rendant la génération accessible sur un GPU grand public.

En 2024, les modèles de diffusion ont dépassé les GANs sur toutes les métriques — qualité, diversité, stabilité d’entraînement. Stable Diffusion 3 et Flux (Black Forest Labs, 2024-2025) portent la génération d’images à un niveau de photoréalisme inédit. La génération vidéo (Sora, Runway Gen-3, Kling, 2024-2025) devient le nouveau front, avec des modèles capables de produire des scènes d’une minute cohérentes en mouvement, éclairage et physique.

AnnéeContributionConcept
2013VAE (Variational Autoencoder) — génération latente continueKingma & Welling
2014GAN (Generative Adversarial Network) — générateur vs discriminateurGoodfellow et al.
2015DCGAN — GAN convolutionnel stableRadford et al.
2017WGAN — Wasserstein GAN, résout l’instabilité du trainingArjovsky et al.
2019StyleGAN — génération d’images haute résolution contrôlableKarras et al. (NVIDIA)
2020DDPM (Denoising Diffusion Probabilistic Models) — diffusion, éclipse les GANsHo et al.
2021DALL-E — text-to-image avec VQ-VAE + TransformerOpenAI
2022Stable Diffusion — diffusion dans l’espace latent (open-source)Rombach et al.
2023Midjourney v5/v6 — photoréalisme, standard créatifMidjourney
2024Sora — génération vidéo (diffusion + transformer)OpenAI
2024Stable Video Diffusion — vidéo open-sourceStability AI

← Reinforcement Learning12Vision par Ordinateur →