Graph-Based Causal Variance Decompositions: When "Variance Explained" Means causation

Using the law of total variance recursively, the marginal variance of an outcome variable can be decomposed into variances explained by other variables, and a residual variance. However, the decomposition depends on the arbitrary order of conditioning and generally the terms do not have a causal interpretation. Such an interpretation can be obtained by conditioning in the topological order of the variables in a directed acyclic graph. We propose that this extends to modified orders where we choose to condition on selected intermediate variables, to obtain a controlled direct effect type interpretation; this is motivated by the context of detecting disparities in health care delivery. In this talk we formulate causal "variance explained" estimands and graph-based identification rules for these, relate these estimands to variable importance metrics in machine learning and discuss challenges in estimating the variance components as population parameters, including plug-in bias.

Décompositions causales de la variance basées sur des graphes : quand « variance expliquée » signifie causalité

En utilisant la loi de variance totale de manière récursive, la variance marginale d'une variable de résultat peut être décomposée en variances expliquées par d'autres variables et une variance résiduelle. Cependant, cette décomposition dépend de l'ordre arbitraire de conditionnement et, en général, les termes n'ont pas d'interprétation causale. Une telle interprétation peut être obtenue en conditionnant dans l'ordre topologique des variables dans un graphe acyclique dirigé. Nous proposons d'étendre cette approche à des ordres modifiés dans lesquels nous choisissons de conditionner certaines variables intermédiaires sélectionnées, afin d'obtenir une interprétation de type effet direct contrôlé ; cette approche vise la détection des disparités dans la prestation des soins de santé. Dans cette présentation, nous formulons des estimations causales de la « variance expliquée » et des règles d'identification basées sur des graphes pour celles-ci, nous relions ces estimations aux mesures d'importance des variables dans l'apprentissage automatique et nous discutons des défis que représente l'estimation des composantes de variance en tant que paramètres de population, y compris le biais de plug-in.

Session

Exploiter l'apprentissage automatique pour l'inférence causale : opportunités, défis et solutions

Date and Time