Causal Machine Learning
Le deep learning excelle à trouver des corrélations — mais la corrélation n’est pas la causalité. Un modèle qui apprend que “les gens qui achètent des couches achètent aussi du lait” ne sait pas si c’est la couche qui cause l’achat de lait, ou si c’est le fait d’avoir un bébé qui cause les deux. La causalité répond à la question “et si ?” — que se passerait-il si on intervenait sur une variable ?
Le cadre formel vient de Judea Pearl : le do-calculus et les graphes causaux (DAGs) permettent de raisonner sur les interventions sans avoir à les réaliser physiquement. DoWhy (Microsoft, 2018) implémente ce cadre en Python avec une API en quatre étapes : modéliser le graphe causal, identifier l’effet causal, l’estimer, puis le réfuter.
DoubleML (2019) applique le double machine learning — utiliser des modèles ML pour estimer les nuisance functions, puis combiner leurs résidus pour un estimateur semi-paramétrique de l’effet causal. Le causal discovery cherche à inférer automatiquement le graphe causal à partir des données (PC, FCI, NOTEARS).
Le lien avec le ML moderne émerge en 2021-2023 : les modèles entraînés sur des corrélations sont fragiles hors distribution (OOD). La causalité offre une invariance — une relation causale reste vraie même si la distribution change. C’est le pont entre causalité et robustesse, et un axe de recherche actif.
Lien thèse : Les attaques byzantines créent artificiellement des corrélations fallacieuses entre les gradients. Un GAR causal — qui raisonne sur pourquoi un gradient est aberrant plutôt que sur à quel point il l’est — reste un problème ouvert.
| Année | Contribution | Concept |
|---|---|---|
| 2018 | DoWhy — framework causal (Microsoft) | |
| 2019 | DoubleML — double machine learning pour estimation causale | |
| 2020 | Causal Discovery — algorithmes (PC, FCI, NOTEARS) pour inférer des graphes causaux | |
| 2021 | Causal Representation Learning — apprendre des variables causales latentes | Schölkopf et al. |
| 2022 | Causal NLP — causalité dans les modèles de langage | Feder et al. |
| 2023 | Causality + Robustness — causalité comme outil de robustesse hors-distribution |
🔗 Lien thèse : Les attaques byzantines créent une covariate shift non-causal. Les méthodes causales peuvent aider à distinguer les corrélations fallacieuses (attaques) des vraies relations.
← Continual Learning • 25 • Geometric Deep Learning →