Positional Encodings

Le Transformer, contrairement aux RNN, n’a aucune notion de l’ordre des tokens. L’attention est une opération ensembliste — permuter les mots de l’entrée donne exactement la même sortie. Pour que “Le chien mord l’homme” ne soit pas équivalent à “L’homme mord le chien”, il faut injecter l’information de position.

La solution originale de Vaswani et al. (2017) est élégante : des sinusoïdes de fréquences différentes, ajoutées directement aux embeddings. $P E_{(p os, 2 i)} = sin (p os /1000 0^{2 i / d})$ . L’avantage théorique est que ces encodages sont déterministes et extrapolables — on peut calculer la position 1000 sans avoir vu les positions 1 à 999 à l’entraînement. L’inconvénient : en pratique, les sinusoïdes sont approximées, et les modèles apprennent des encodages de position de toute façon.

BERT opte pour des encodages absolus appris — un embedding par position, entraîné comme les embeddings de mots. Simple, efficace, mais limité à la longueur maximale vue à l’entraînement (512 pour BERT).

Le problème fondamental émerge avec les longs contextes : les positions absolues (sinusoïdales ou apprises) ne capturent pas la notion de distance relative entre deux tokens. Que deux mots soient aux positions 7 et 9, ou 107 et 109, importe peu — ce qui compte, c’est leur écart de 2.

RoPE (Rotary Position Embedding, Su et al., 2021) résout cela avec une intuition géométrique : appliquer une rotation aux vecteurs de query et key, où l’angle de rotation dépend de la position. Le produit scalaire $q_{m}^{⊤} k_{n}$ devient alors une fonction de la différence $(m - n)$ — exactement ce dont l’attention a besoin. RoPE décroît naturellement avec la distance (les tokens éloignés s’influencent moins) et s’extrapole bien au-delà de la longueur d’entraînement. C’est devenu le standard universel : Llama (toutes versions), Mistral, DeepSeek, GPT-5+, Gemini, Qwen — tous l’utilisent.

ALiBi (Press et al., 2022) propose une alternative radicalement plus simple : pas d’encodage appris du tout. On soustrait un bias linéaire négatif proportionnel à la distance — $- λ \cdot ∣ i - j ∣$ — directement dans le score d’attention avant le softmax. C’est utilisé par BLOOM et MPT, et la simplicité est séduisante pour les très longs contextes.

Méthode	Année	Concept	Modèles
Sinusoidal	2017	$P E_{(p os, 2 i)} = sin (p os /1000 0^{2 i / d})$	Transformer original
Learned Absolute	2017	Embedding appris pour chaque position	BERT
Relative (Shaw)	2018	Bias appris $a_{ij}^{K}$ sur les paires de positions
T5 Relative Bias	2020	Bias scalaire par bucket de distance	T5
RoPE (Rotary PE)	2021	Rotation dans l’espace des têtes, décroissance naturelle avec la distance	Standard universel : Llama, Mistral, DeepSeek, GPT-5+, Gemini, Qwen
ALiBi	2022	Bias linéaire négatif basé sur distance pas de PE apprise	BLOOM, MPT
xPos	2022	Normalisation du rotation matrix pour longue séquence
NoPE	2023	Aucune position explicite — l’attention seule suffit (Universal Transformer)

RoPE vs ALiBi : RoPE (Llama, DeepSeek, GPT-5+) est devenu le standard en 2024-2026 car il combine l’avantage des positions relatives ET permet l’extrapolation au-delà de la longueur d’entraînement. ALiBi (BLOOM, MPT) est plus simple mais moins flexible pour les très longues séquences.

← Mécanismes d’Attention • 33 • Scaling Laws →

ArtNotes

Explorateur

33 - Positional Encodings

Positional Encodings

Vue Graphique

Liens retour