Fonctions de Loss (Évolution)

La fonction de loss est la boussole de l’apprentissage : c’est elle qui dit au modèle dans quelle direction ajuster ses poids. Pendant longtemps, la cross-entropy pour la classification et la MSE pour la régression suffisaient à tout.

L’essor des architectures d’embedding (Siamese, Triplet) dans les années 2010 a nécessité de nouvelles fonctions : la contrastive loss (2006) rapproche les paires similaires et éloigne les dissimilaires ; la triplet loss (2015) généralise à trois exemples (ancre, positif, négatif). C’est ce qui a rendu possible FaceNet et la reconnaissance faciale.

En 2018, l’InfoNCE devient la loss standard du contrastive learning — elle mesure si le modèle sait identifier l’exemple “positif” parmi un lot de distracteurs. SimCLR, MoCo, et CLIP l’utilisent. En 2020, la diffusion loss — minimiser l’erreur de prédiction du bruit — devient le moteur de Stable Diffusion et DALL-E.

LossAnnéeFormuleUsage
MSERégression
Cross-Entropy (CE)Classification multi-classes
Binary Cross-Entropy (BCE)Classification binaire
Hinge Loss1964SVM
Huber Loss1964$\begin{cases} \frac{1}{2}(y-\hat{y})^2 &\text{si }y-\hat{y}\leq\delta \ \delta \cdot (y-\hat{y}- \frac{\delta}{2}) &\text{sinon} \end{cases}$Régression robuste
Contrastive Loss2006 avec Siamese Networks
Triplet Loss2015FaceNet, embeddings
Focal Loss2017Déséquilibre classes (RetinaNet)
Dice Loss2016Segmentation
VAE Loss (ELBO)2013$-\mathbb{E}_{z \sim q(z \x)}[\log p(xz)] + \beta \cdot KL(q(zx)|p(z))$Autoencodeur variationnel
InfoNCE2018Contrastive (SimCLR, MoCo)
NT-Xent2020SimCLR (InfoNCE normalisé)
Diffusion Loss2020Denoising Diffusion
CTC Loss2006$-\log \sum_{\pi \in \mathcal{B}^{-1}(y)} \prod_t p(\pi_tx)$ASR, OCR (alignement séquence)
Adversarial Loss (GAN)2014GANs

← Fonctions d’Activation31Mécanismes d’Attention →