Le piège de la corrélation
Une corrélation célèbre : les ventes de glaces et les noyades augmentent en même temps. Faut-il interdire les glaces pour sauver des vies ? Bien sûr que non — la chaleur estivale est la variable confondante. Ce genre de raisonnement naïf coûte cher en business : campagnes marketing mal attribuées, politiques RH contre-productives.
Les DAGs causaux de Judea Pearl
Un DAG (Directed Acyclic Graph) causal représente les hypothèses sur les relations de cause à effet entre variables. Il permet de :
- Identifier quelles variables contrôler pour isoler un effet
- Détecter les colliders (variables qu'il ne faut surtout PAS contrôler)
- Formaliser ce qu'on veut mesurer avant de toucher aux données
DoWhy en pratique
La librairie DoWhy (Microsoft) implémente le framework de Pearl en Python. Le workflow en 4 étapes : Model (définir le DAG) → Identify (trouver l'estimand causal) → Estimate (calculer l'effet) → Refute (tester la robustesse).
Exemple RH : l'effet des formations sur la performance
Un manager observe que les employés formés performent mieux. Mais est-ce la formation qui cause la performance, ou les bons employés sont-ils simplement plus susceptibles de suivre des formations (biais de sélection) ? Avec un modèle causal et la méthode des variables instrumentales, on peut isoler l'effet réel.
Quand l'AB test n'est pas possible
L'AB test est le gold standard, mais il est souvent impossible (éthique, coût, délai). Les méthodes d'inférence causale observationnelle — Difference-in-Differences, Regression Discontinuity, Propensity Score Matching — permettent d'estimer des effets causaux sans randomisation.