Self-Supervised Learning

Pendant des années, le deep learning a été prisonnier d’un paradoxe : plus le modèle est profond, plus il a besoin de données — mais annoter des millions d’exemples coûte une fortune. Le self-supervised learning (SSL) brise ce cercle vicieux en générant des labels gratuits à partir des données elles-mêmes.

L’idée est de formuler une pretext task : prédire la rotation d’une image, coloriser une photo en noir et blanc, ou — la plus fructueuse — déterminer si deux vues d’une même image sont bien la même image après augmentation. Le modèle apprend des représentations utiles sans jamais voir un seul label humain.

SimCLR (Chen et al., Google, 2020) montre que le contrastive learning — rapprocher les représentations de deux augmentations d’une même image, éloigner celles d’images différentes — peut rivaliser avec le supervisé, à condition d’avoir un batch size énorme (4096+). MoCo (He et al., 2020) contourne ce besoin avec un momentum encoder qui maintient une file d’attente de représentations négatives, rendant le SSL accessible sans 64 GPUs.

Mais le contrastif nécessite des paires négatives — et choisir de bonnes négatives est un art. BYOL (Grill et al., DeepMind, 2021) pulvérise cette contrainte : aucun exemple négatif. Le modèle apprend en prédisant sa propre sortie sur une vue augmentée, en utilisant une version “cible” (target network) de lui-même. DINO (Caron et al., 2021) raffine avec de la self-distillation, et les ViTs entraînés avec DINO produisent des cartes d’attention qui délimitent naturellement les objets — sans jamais avoir vu un seul masque de segmentation.

MAE (He et al., 2022) transpose au domaine visuel l’idée de BERT : masquer 75% des patches d’une image et entraîner le modèle à les reconstruire. Simple, scalable, état de l’art. DINOv2 (2023) combine les meilleures idées (contrastif + distillation + ViT + gros dataset) pour produire des features visuelles génériques qui fonctionnent “out of the box” sur des dizaines de tâches.

Le SSL incarne une vérité profonde : il y a plus de signal dans les données brutes que dans tous les labels du monde.

Année	Contribution	Concept
2018	CPC (Contrastive Predictive Coding) — prédiction future dans l’espace latent	Oord et al. (DeepMind)
2020	SimCLR — contrastive learning sur images, batch size énorme	Chen et al. (Google)
2020	MoCo — momentum encoder, pas besoin de batch size géant	He et al. (Meta)
2021	BYOL — bootstrap your own latent, pas de contrastif	Grill et al. (DeepMind)
2021	DINO — self-distillation, ViT sans labels	Caron et al. (Meta)
2022	MAE (Masked Autoencoder) — masquer + reconstruire (inspiré de BERT)	He et al. (Meta)
2023	DINOv2 — ViT auto-supervisé pour features génériques	Meta
2024	JEPA (Joint Embedding Predictive Architecture) — prédiction dans l’espace latent	LeCun (Meta)

← AutoML & Meta-Learning • 16 • Datasets Fondamentaux →

ArtNotes

Explorateur

16 - Self-Supervised Learning

Self-Supervised Learning

Vue Graphique

Liens retour