Vision par Ordinateur
La vision est le domaine qui a le plus bénéficié du deep learning. Avant 2012, la reconnaissance d’images reposait sur des features artisanales (SIFT, HOG) combinées à des classifieurs classiques (SVM). Le pipeline était ingénieux mais fragile — chaque nouveau domaine nécessitait de nouvelles features.
AlexNet (2012) change la donne en démontrant qu’un réseau convolutif apprenant directement depuis les pixels peut battre toutes les méthodes artisanales. La victoire est si nette (15.3% d’erreur vs 26.2% pour le second) que la communauté de la vision bascule massivement vers le deep learning en moins d’un an.
S’ensuit une course à la profondeur et à l’ingéniosité architecturale. VGGNet (2014) montre que des filtres 3×3 empilés sont plus efficaces que des gros filtres. GoogLeNet/Inception (2014) introduit des convolutions parallèles multi-échelles. ResNet (2015) résout le problème de la profondeur avec les skip connections — le signal peut “court-circuiter” des couches, permettant d’empiler 152 couches sans dégradation. C’est l’architecture la plus citée de l’histoire du deep learning.
YOLO (2016) révolutionne la détection d’objets en la formulant comme une régression unique — une seule passe dans le réseau au lieu de centaines de propositions. Mask R-CNN (2017) ajoute la segmentation d’instances.
En 2020, le Vision Transformer (ViT) propose une rupture radicale : traiter une image comme une “phrase de patches” de 16×16 pixels, et appliquer un Transformer standard. Pas de convolution, pas d’induction spatiale — juste de l’attention. ViT bat ResNet sur ImageNet avec moins de compute. Swin Transformer (2021) affine avec une attention hiérarchique locale+globale. Ironiquement, en 2022, ConvNeXt montre qu’en modernisant les CNN (GELU, LayerNorm, depthwise conv inspiré de ViT), on peut rattraper les Transformers. La guerre CNN vs Transformer n’est pas finie.
DINOv2 (2023) et SAM (Segment Anything, 2024) marquent l’entrée de la vision dans l’ère des modèles de fondation : un seul modèle pré-entraîné pour des dizaines de tâches en aval, sans fine-tuning.
| Année | Contribution | Concept |
|---|---|---|
| 1989 | LeNet — premiers CNN pour reconnaissance de chiffres | LeCun |
| 2012 | AlexNet — ReLU + Dropout + GPU, gagne ImageNet | Krizhevsky |
| 2014 | VGGNet — réseau profond avec petites convolutions 3×3 | Simonyan & Zisserman |
| 2014 | GoogLeNet (Inception) — convolutions parallèles multi-échelles | Szegedy et al. |
| 2015 | ResNet — skip connections, jusqu’à 152 couches | He et al. |
| 2016 | YOLO — detection d’objets en un seul passage (real-time) | Redmon et al. |
| 2017 | Mask R-CNN — segmentation d’instance | He et al. |
| 2020 | ViT (Vision Transformer) — patch embedding + Transformer, bat les CNN | Dosovitskiy et al. |
| 2021 | Swin Transformer — hiérarchique, local+global attention | Liu et al. |
| 2021 | ConvNeXt — CNN moderne qui rattrape les ViTs | Liu et al. |
| 2023 | DINOv2 — self-supervised ViT, features génériques | Meta AI |
| 2024 | SAM2 (Segment Anything) — segmentation universelle promptable | Meta AI |
← Modèles Génératifs • 13 • NLP : Du Word Embedding aux LLMs →