Modèles Génératifs

Pendant des décennies, les modèles de machine learning ont été discriminatifs — ils savent classifier, mais pas créer. Les modèles génératifs apprennent la distribution $p (x)$ des données et peuvent en échantillonner de nouveaux exemples.

La première vague est celle des GANs (Goodfellow et al., 2014). L’idée est théâtrale : un générateur crée des images fausses, un discriminateur essaie de distinguer les vraies des fausses. Les deux s’entraînent en opposition — le générateur apprend à tromper, le discriminateur à démasquer. Le résultat est magique, mais l’entraînement est instable — oscillations, mode collapse, hyperparamètres capricieux. WGAN (2017) stabilise avec la distance de Wasserstein. StyleGAN (2019) introduit un contrôle fin de la génération (style mixing), produisant des visages photoréalistes indiscernables de photos réelles.

Pendant ce temps, une approche radicalement différente émerge : les modèles de diffusion (DDPM, Ho et al., 2020). L’idée est d’apprendre à débruiter — on ajoute progressivement du bruit à une image jusqu’à ce qu’elle devienne du bruit pur, puis on entraîne un réseau à inverser le processus. Chaque étape de débruitage est simple (prédire le bruit ajouté), mais il en faut des centaines pour générer une image. Stable Diffusion (2022) accélère en opérant dans un espace latent compressé (VAE + UNet), rendant la génération accessible sur un GPU grand public.

En 2024, les modèles de diffusion ont dépassé les GANs sur toutes les métriques — qualité, diversité, stabilité d’entraînement. Stable Diffusion 3 et Flux (Black Forest Labs, 2024-2025) portent la génération d’images à un niveau de photoréalisme inédit. La génération vidéo (Sora, Runway Gen-3, Kling, 2024-2025) devient le nouveau front, avec des modèles capables de produire des scènes d’une minute cohérentes en mouvement, éclairage et physique.

Année	Contribution	Concept
2013	VAE (Variational Autoencoder) — génération latente continue	Kingma & Welling
2014	GAN (Generative Adversarial Network) — générateur vs discriminateur	Goodfellow et al.
2015	DCGAN — GAN convolutionnel stable	Radford et al.
2017	WGAN — Wasserstein GAN, résout l’instabilité du training	Arjovsky et al.
2019	StyleGAN — génération d’images haute résolution contrôlable	Karras et al. (NVIDIA)
2020	DDPM (Denoising Diffusion Probabilistic Models) — diffusion, éclipse les GANs	Ho et al.
2021	DALL-E — text-to-image avec VQ-VAE + Transformer	OpenAI
2022	Stable Diffusion — diffusion dans l’espace latent (open-source)	Rombach et al.
2023	Midjourney v5/v6 — photoréalisme, standard créatif	Midjourney
2024	Sora — génération vidéo (diffusion + transformer)	OpenAI
2024	Stable Video Diffusion — vidéo open-source	Stability AI

← Reinforcement Learning • 12 • Vision par Ordinateur →

ArtNotes

Explorateur

12 - Modèles Génératifs

Modèles Génératifs

Vue Graphique

Liens retour