Self-Supervised Learning
Pendant des années, le deep learning a été prisonnier d’un paradoxe : plus le modèle est profond, plus il a besoin de données — mais annoter des millions d’exemples coûte une fortune. Le self-supervised learning (SSL) brise ce cercle vicieux en générant des labels gratuits à partir des données elles-mêmes.
L’idée est de formuler une pretext task : prédire la rotation d’une image, coloriser une photo en noir et blanc, ou — la plus fructueuse — déterminer si deux vues d’une même image sont bien la même image après augmentation. Le modèle apprend des représentations utiles sans jamais voir un seul label humain.
SimCLR (Chen et al., Google, 2020) montre que le contrastive learning — rapprocher les représentations de deux augmentations d’une même image, éloigner celles d’images différentes — peut rivaliser avec le supervisé, à condition d’avoir un batch size énorme (4096+). MoCo (He et al., 2020) contourne ce besoin avec un momentum encoder qui maintient une file d’attente de représentations négatives, rendant le SSL accessible sans 64 GPUs.
Mais le contrastif nécessite des paires négatives — et choisir de bonnes négatives est un art. BYOL (Grill et al., DeepMind, 2021) pulvérise cette contrainte : aucun exemple négatif. Le modèle apprend en prédisant sa propre sortie sur une vue augmentée, en utilisant une version “cible” (target network) de lui-même. DINO (Caron et al., 2021) raffine avec de la self-distillation, et les ViTs entraînés avec DINO produisent des cartes d’attention qui délimitent naturellement les objets — sans jamais avoir vu un seul masque de segmentation.
MAE (He et al., 2022) transpose au domaine visuel l’idée de BERT : masquer 75% des patches d’une image et entraîner le modèle à les reconstruire. Simple, scalable, état de l’art. DINOv2 (2023) combine les meilleures idées (contrastif + distillation + ViT + gros dataset) pour produire des features visuelles génériques qui fonctionnent “out of the box” sur des dizaines de tâches.
Le SSL incarne une vérité profonde : il y a plus de signal dans les données brutes que dans tous les labels du monde.
| Année | Contribution | Concept |
|---|---|---|
| 2018 | CPC (Contrastive Predictive Coding) — prédiction future dans l’espace latent | Oord et al. (DeepMind) |
| 2020 | SimCLR — contrastive learning sur images, batch size énorme | Chen et al. (Google) |
| 2020 | MoCo — momentum encoder, pas besoin de batch size géant | He et al. (Meta) |
| 2021 | BYOL — bootstrap your own latent, pas de contrastif | Grill et al. (DeepMind) |
| 2021 | DINO — self-distillation, ViT sans labels | Caron et al. (Meta) |
| 2022 | MAE (Masked Autoencoder) — masquer + reconstruire (inspiré de BERT) | He et al. (Meta) |
| 2023 | DINOv2 — ViT auto-supervisé pour features génériques | Meta |
| 2024 | JEPA (Joint Embedding Predictive Architecture) — prédiction dans l’espace latent | LeCun (Meta) |
← AutoML & Meta-Learning • 16 • Datasets Fondamentaux →