Vision par Ordinateur

La vision est le domaine qui a le plus bénéficié du deep learning. Avant 2012, la reconnaissance d’images reposait sur des features artisanales (SIFT, HOG) combinées à des classifieurs classiques (SVM). Le pipeline était ingénieux mais fragile — chaque nouveau domaine nécessitait de nouvelles features.

AlexNet (2012) change la donne en démontrant qu’un réseau convolutif apprenant directement depuis les pixels peut battre toutes les méthodes artisanales. La victoire est si nette (15.3% d’erreur vs 26.2% pour le second) que la communauté de la vision bascule massivement vers le deep learning en moins d’un an.

S’ensuit une course à la profondeur et à l’ingéniosité architecturale. VGGNet (2014) montre que des filtres 3×3 empilés sont plus efficaces que des gros filtres. GoogLeNet/Inception (2014) introduit des convolutions parallèles multi-échelles. ResNet (2015) résout le problème de la profondeur avec les skip connections — le signal peut “court-circuiter” des couches, permettant d’empiler 152 couches sans dégradation. C’est l’architecture la plus citée de l’histoire du deep learning.

YOLO (2016) révolutionne la détection d’objets en la formulant comme une régression unique — une seule passe dans le réseau au lieu de centaines de propositions. Mask R-CNN (2017) ajoute la segmentation d’instances.

En 2020, le Vision Transformer (ViT) propose une rupture radicale : traiter une image comme une “phrase de patches” de 16×16 pixels, et appliquer un Transformer standard. Pas de convolution, pas d’induction spatiale — juste de l’attention. ViT bat ResNet sur ImageNet avec moins de compute. Swin Transformer (2021) affine avec une attention hiérarchique locale+globale. Ironiquement, en 2022, ConvNeXt montre qu’en modernisant les CNN (GELU, LayerNorm, depthwise conv inspiré de ViT), on peut rattraper les Transformers. La guerre CNN vs Transformer n’est pas finie.

DINOv2 (2023) et SAM (Segment Anything, 2024) marquent l’entrée de la vision dans l’ère des modèles de fondation : un seul modèle pré-entraîné pour des dizaines de tâches en aval, sans fine-tuning.

Année	Contribution	Concept
1989	LeNet — premiers CNN pour reconnaissance de chiffres	LeCun
2012	AlexNet — ReLU + Dropout + GPU, gagne ImageNet	Krizhevsky
2014	VGGNet — réseau profond avec petites convolutions 3×3	Simonyan & Zisserman
2014	GoogLeNet (Inception) — convolutions parallèles multi-échelles	Szegedy et al.
2015	ResNet — skip connections, jusqu’à 152 couches	He et al.
2016	YOLO — detection d’objets en un seul passage (real-time)	Redmon et al.
2017	Mask R-CNN — segmentation d’instance	He et al.
2020	ViT (Vision Transformer) — patch embedding + Transformer, bat les CNN	Dosovitskiy et al.
2021	Swin Transformer — hiérarchique, local+global attention	Liu et al.
2021	ConvNeXt — CNN moderne qui rattrape les ViTs	Liu et al.
2023	DINOv2 — self-supervised ViT, features génériques	Meta AI
2024	SAM2 (Segment Anything) — segmentation universelle promptable	Meta AI

← Modèles Génératifs • 13 • NLP : Du Word Embedding aux LLMs →

ArtNotes

Explorateur

13 - Vision par Ordinateur

Vision par Ordinateur

Vue Graphique

Liens retour