Vision par Ordinateur

La vision est le domaine qui a le plus bénéficié du deep learning. Avant 2012, la reconnaissance d’images reposait sur des features artisanales (SIFT, HOG) combinées à des classifieurs classiques (SVM). Le pipeline était ingénieux mais fragile — chaque nouveau domaine nécessitait de nouvelles features.

AlexNet (2012) change la donne en démontrant qu’un réseau convolutif apprenant directement depuis les pixels peut battre toutes les méthodes artisanales. La victoire est si nette (15.3% d’erreur vs 26.2% pour le second) que la communauté de la vision bascule massivement vers le deep learning en moins d’un an.

S’ensuit une course à la profondeur et à l’ingéniosité architecturale. VGGNet (2014) montre que des filtres 3×3 empilés sont plus efficaces que des gros filtres. GoogLeNet/Inception (2014) introduit des convolutions parallèles multi-échelles. ResNet (2015) résout le problème de la profondeur avec les skip connections — le signal peut “court-circuiter” des couches, permettant d’empiler 152 couches sans dégradation. C’est l’architecture la plus citée de l’histoire du deep learning.

YOLO (2016) révolutionne la détection d’objets en la formulant comme une régression unique — une seule passe dans le réseau au lieu de centaines de propositions. Mask R-CNN (2017) ajoute la segmentation d’instances.

En 2020, le Vision Transformer (ViT) propose une rupture radicale : traiter une image comme une “phrase de patches” de 16×16 pixels, et appliquer un Transformer standard. Pas de convolution, pas d’induction spatiale — juste de l’attention. ViT bat ResNet sur ImageNet avec moins de compute. Swin Transformer (2021) affine avec une attention hiérarchique locale+globale. Ironiquement, en 2022, ConvNeXt montre qu’en modernisant les CNN (GELU, LayerNorm, depthwise conv inspiré de ViT), on peut rattraper les Transformers. La guerre CNN vs Transformer n’est pas finie.

DINOv2 (2023) et SAM (Segment Anything, 2024) marquent l’entrée de la vision dans l’ère des modèles de fondation : un seul modèle pré-entraîné pour des dizaines de tâches en aval, sans fine-tuning.

AnnéeContributionConcept
1989LeNet — premiers CNN pour reconnaissance de chiffresLeCun
2012AlexNet — ReLU + Dropout + GPU, gagne ImageNetKrizhevsky
2014VGGNet — réseau profond avec petites convolutions 3×3Simonyan & Zisserman
2014GoogLeNet (Inception) — convolutions parallèles multi-échellesSzegedy et al.
2015ResNet — skip connections, jusqu’à 152 couchesHe et al.
2016YOLO — detection d’objets en un seul passage (real-time)Redmon et al.
2017Mask R-CNN — segmentation d’instanceHe et al.
2020ViT (Vision Transformer) — patch embedding + Transformer, bat les CNNDosovitskiy et al.
2021Swin Transformer — hiérarchique, local+global attentionLiu et al.
2021ConvNeXt — CNN moderne qui rattrape les ViTsLiu et al.
2023DINOv2 — self-supervised ViT, features génériquesMeta AI
2024SAM2 (Segment Anything) — segmentation universelle promptableMeta AI

← Modèles Génératifs13NLP : Du Word Embedding aux LLMs →