Positional Encodings

Le Transformer, contrairement aux RNN, n’a aucune notion de l’ordre des tokens. L’attention est une opération ensembliste — permuter les mots de l’entrée donne exactement la même sortie. Pour que “Le chien mord l’homme” ne soit pas équivalent à “L’homme mord le chien”, il faut injecter l’information de position.

La solution originale de Vaswani et al. (2017) est élégante : des sinusoïdes de fréquences différentes, ajoutées directement aux embeddings. . L’avantage théorique est que ces encodages sont déterministes et extrapolables — on peut calculer la position 1000 sans avoir vu les positions 1 à 999 à l’entraînement. L’inconvénient : en pratique, les sinusoïdes sont approximées, et les modèles apprennent des encodages de position de toute façon.

BERT opte pour des encodages absolus appris — un embedding par position, entraîné comme les embeddings de mots. Simple, efficace, mais limité à la longueur maximale vue à l’entraînement (512 pour BERT).

Le problème fondamental émerge avec les longs contextes : les positions absolues (sinusoïdales ou apprises) ne capturent pas la notion de distance relative entre deux tokens. Que deux mots soient aux positions 7 et 9, ou 107 et 109, importe peu — ce qui compte, c’est leur écart de 2.

RoPE (Rotary Position Embedding, Su et al., 2021) résout cela avec une intuition géométrique : appliquer une rotation aux vecteurs de query et key, où l’angle de rotation dépend de la position. Le produit scalaire devient alors une fonction de la différence — exactement ce dont l’attention a besoin. RoPE décroît naturellement avec la distance (les tokens éloignés s’influencent moins) et s’extrapole bien au-delà de la longueur d’entraînement. C’est devenu le standard universel : Llama (toutes versions), Mistral, DeepSeek, GPT-5+, Gemini, Qwen — tous l’utilisent.

ALiBi (Press et al., 2022) propose une alternative radicalement plus simple : pas d’encodage appris du tout. On soustrait un bias linéaire négatif proportionnel à la distance — — directement dans le score d’attention avant le softmax. C’est utilisé par BLOOM et MPT, et la simplicité est séduisante pour les très longs contextes.

MéthodeAnnéeConceptModèles
Sinusoidal2017Transformer original
Learned Absolute2017Embedding appris pour chaque positionBERT
Relative (Shaw)2018Bias appris sur les paires de positions
T5 Relative Bias2020Bias scalaire par bucket de distanceT5
RoPE (Rotary PE)2021Rotation dans l’espace des têtes, décroissance naturelle avec la distanceStandard universel : Llama, Mistral, DeepSeek, GPT-5+, Gemini, Qwen
ALiBi2022Bias linéaire négatif basé sur distance pas de PE appriseBLOOM, MPT
xPos2022Normalisation du rotation matrix pour longue séquence
NoPE2023Aucune position explicite — l’attention seule suffit (Universal Transformer)

RoPE vs ALiBi : RoPE (Llama, DeepSeek, GPT-5+) est devenu le standard en 2024-2026 car il combine l’avantage des positions relatives ET permet l’extrapolation au-delà de la longueur d’entraînement. ALiBi (BLOOM, MPT) est plus simple mais moins flexible pour les très longues séquences.

← Mécanismes d’Attention33Scaling Laws →