Fonctions de Loss (Évolution)
La fonction de loss est la boussole de l’apprentissage : c’est elle qui dit au modèle dans quelle direction ajuster ses poids. Pendant longtemps, la cross-entropy pour la classification et la MSE pour la régression suffisaient à tout.
L’essor des architectures d’embedding (Siamese, Triplet) dans les années 2010 a nécessité de nouvelles fonctions : la contrastive loss (2006) rapproche les paires similaires et éloigne les dissimilaires ; la triplet loss (2015) généralise à trois exemples (ancre, positif, négatif). C’est ce qui a rendu possible FaceNet et la reconnaissance faciale.
En 2018, l’InfoNCE devient la loss standard du contrastive learning — elle mesure si le modèle sait identifier l’exemple “positif” parmi un lot de distracteurs. SimCLR, MoCo, et CLIP l’utilisent. En 2020, la diffusion loss — minimiser l’erreur de prédiction du bruit — devient le moteur de Stable Diffusion et DALL-E.
| Loss | Année | Formule | Usage | ||||
|---|---|---|---|---|---|---|---|
| MSE | — | Régression | |||||
| Cross-Entropy (CE) | — | Classification multi-classes | |||||
| Binary Cross-Entropy (BCE) | — | Classification binaire | |||||
| Hinge Loss | 1964 | SVM | |||||
| Huber Loss | 1964 | $\begin{cases} \frac{1}{2}(y-\hat{y})^2 &\text{si } | y-\hat{y} | \leq\delta \ \delta \cdot ( | y-\hat{y} | - \frac{\delta}{2}) &\text{sinon} \end{cases}$ | Régression robuste |
| Contrastive Loss | 2006 | avec | Siamese Networks | ||||
| Triplet Loss | 2015 | FaceNet, embeddings | |||||
| Focal Loss | 2017 | Déséquilibre classes (RetinaNet) | |||||
| Dice Loss | 2016 | Segmentation | |||||
| VAE Loss (ELBO) | 2013 | $-\mathbb{E}_{z \sim q(z \ | x)}[\log p(x | z)] + \beta \cdot KL(q(z | x)|p(z))$ | Autoencodeur variationnel | |
| InfoNCE | 2018 | Contrastive (SimCLR, MoCo) | |||||
| NT-Xent | 2020 | SimCLR (InfoNCE normalisé) | |||||
| Diffusion Loss | 2020 | Denoising Diffusion | |||||
| CTC Loss | 2006 | $-\log \sum_{\pi \in \mathcal{B}^{-1}(y)} \prod_t p(\pi_t | x)$ | ASR, OCR (alignement séquence) | |||
| Adversarial Loss (GAN) | 2014 | GANs |
← Fonctions d’Activation • 31 • Mécanismes d’Attention →