Fonctions de Loss (Évolution)

La fonction de loss est la boussole de l’apprentissage : c’est elle qui dit au modèle dans quelle direction ajuster ses poids. Pendant longtemps, la cross-entropy pour la classification et la MSE pour la régression suffisaient à tout.

L’essor des architectures d’embedding (Siamese, Triplet) dans les années 2010 a nécessité de nouvelles fonctions : la contrastive loss (2006) rapproche les paires similaires et éloigne les dissimilaires ; la triplet loss (2015) généralise à trois exemples (ancre, positif, négatif). C’est ce qui a rendu possible FaceNet et la reconnaissance faciale.

En 2018, l’InfoNCE devient la loss standard du contrastive learning — elle mesure si le modèle sait identifier l’exemple “positif” parmi un lot de distracteurs. SimCLR, MoCo, et CLIP l’utilisent. En 2020, la diffusion loss — minimiser l’erreur de prédiction du bruit — devient le moteur de Stable Diffusion et DALL-E.

Loss	Année	Formule	Usage
MSE	—	$\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \overset{y}{^}_{i})^{2}$	Régression
Cross-Entropy (CE)	—	$- \sum_{c = 1}^{C} y_{c} lo g \overset{y}{^}_{c}$	Classification multi-classes
Binary Cross-Entropy (BCE)	—	$- [y lo g p + (1 - y) lo g (1 - p)]$	Classification binaire
Hinge Loss	1964	$max (0, 1 - y \cdot \overset{y}{^})$	SVM
Huber Loss	1964	$\begin{cases} \frac{1}{2}(y-\hat{y})^2 &\text{si }	y-\hat{y}	\leq\delta \ \delta \cdot (	y-\hat{y}	- \frac{\delta}{2}) &\text{sinon} \end{cases}$	Régression robuste
Contrastive Loss	2006	$1 [y = 1] \cdot d^{2} + 1 [y = 0] \cdot max (0, m - d)^{2}$ avec $d = ∥ a - b ∥$	Siamese Networks
Triplet Loss	2015	$max (∥ a - p ∥^{2} - ∥ a - n ∥^{2} + α, 0)$	FaceNet, embeddings
Focal Loss	2017	$- (1 - p_{t})^{γ} lo g (p_{t})$	Déséquilibre classes (RetinaNet)
Dice Loss	2016	$1 - \frac{2 \sum _{i} y _{i} y ^ _{i}}{\sum _{i} y _{i} + \sum _{i} y ^ _{i}}$	Segmentation
VAE Loss (ELBO)	2013	$-\mathbb{E}_{z \sim q(z \	x)}[\log p(x	z)] + \beta \cdot KL(q(z	x)\|p(z))$	Autoencodeur variationnel
InfoNCE	2018	$- lo g \frac{e x p ( \frac{sim ( q , k ^{+} )}{τ} )}{\sum _{j = 1}^{K} e x p ( \frac{sim ( q , k _{j} )}{τ} )}$	Contrastive (SimCLR, MoCo)
NT-Xent	2020	$ℓ (i, j) = - lo g \frac{e x p ( s _{i, j} / τ )}{\sum _{k \neq = i} e x p ( s _{i, k} / τ )}$	SimCLR (InfoNCE normalisé)
Diffusion Loss	2020	$E_{t, ϵ} [∥ ϵ - ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ, t) ∥^{2}]$	Denoising Diffusion
CTC Loss	2006	$-\log \sum_{\pi \in \mathcal{B}^{-1}(y)} \prod_t p(\pi_t	x)$	ASR, OCR (alignement séquence)
Adversarial Loss (GAN)	2014	$min_{G} max_{D} E_{x} [lo g D (x)] + E_{z} [lo g (1 - D (G (z)))]$	GANs

← Fonctions d’Activation • 31 • Mécanismes d’Attention →

ArtNotes

Explorateur

31 - Fonctions de Loss (Évolution)

Fonctions de Loss (Évolution)

Vue Graphique

Liens retour