Positional Encodings
Le Transformer, contrairement aux RNN, n’a aucune notion de l’ordre des tokens. L’attention est une opération ensembliste — permuter les mots de l’entrée donne exactement la même sortie. Pour que “Le chien mord l’homme” ne soit pas équivalent à “L’homme mord le chien”, il faut injecter l’information de position.
La solution originale de Vaswani et al. (2017) est élégante : des sinusoïdes de fréquences différentes, ajoutées directement aux embeddings. . L’avantage théorique est que ces encodages sont déterministes et extrapolables — on peut calculer la position 1000 sans avoir vu les positions 1 à 999 à l’entraînement. L’inconvénient : en pratique, les sinusoïdes sont approximées, et les modèles apprennent des encodages de position de toute façon.
BERT opte pour des encodages absolus appris — un embedding par position, entraîné comme les embeddings de mots. Simple, efficace, mais limité à la longueur maximale vue à l’entraînement (512 pour BERT).
Le problème fondamental émerge avec les longs contextes : les positions absolues (sinusoïdales ou apprises) ne capturent pas la notion de distance relative entre deux tokens. Que deux mots soient aux positions 7 et 9, ou 107 et 109, importe peu — ce qui compte, c’est leur écart de 2.
RoPE (Rotary Position Embedding, Su et al., 2021) résout cela avec une intuition géométrique : appliquer une rotation aux vecteurs de query et key, où l’angle de rotation dépend de la position. Le produit scalaire devient alors une fonction de la différence — exactement ce dont l’attention a besoin. RoPE décroît naturellement avec la distance (les tokens éloignés s’influencent moins) et s’extrapole bien au-delà de la longueur d’entraînement. C’est devenu le standard universel : Llama (toutes versions), Mistral, DeepSeek, GPT-5+, Gemini, Qwen — tous l’utilisent.
ALiBi (Press et al., 2022) propose une alternative radicalement plus simple : pas d’encodage appris du tout. On soustrait un bias linéaire négatif proportionnel à la distance — — directement dans le score d’attention avant le softmax. C’est utilisé par BLOOM et MPT, et la simplicité est séduisante pour les très longs contextes.
| Méthode | Année | Concept | Modèles |
|---|---|---|---|
| Sinusoidal | 2017 | Transformer original | |
| Learned Absolute | 2017 | Embedding appris pour chaque position | BERT |
| Relative (Shaw) | 2018 | Bias appris sur les paires de positions | |
| T5 Relative Bias | 2020 | Bias scalaire par bucket de distance | T5 |
| RoPE (Rotary PE) | 2021 | Rotation dans l’espace des têtes, décroissance naturelle avec la distance | Standard universel : Llama, Mistral, DeepSeek, GPT-5+, Gemini, Qwen |
| ALiBi | 2022 | Bias linéaire négatif basé sur distance pas de PE apprise | BLOOM, MPT |
| xPos | 2022 | Normalisation du rotation matrix pour longue séquence | |
| NoPE | 2023 | Aucune position explicite — l’attention seule suffit (Universal Transformer) |
RoPE vs ALiBi : RoPE (Llama, DeepSeek, GPT-5+) est devenu le standard en 2024-2026 car il combine l’avantage des positions relatives ET permet l’extrapolation au-delà de la longueur d’entraînement. ALiBi (BLOOM, MPT) est plus simple mais moins flexible pour les très longues séquences.
← Mécanismes d’Attention • 33 • Scaling Laws →