Causal Discovery Across Datasets via Partial Canonical Correlation Analysis

Modern studies often collect multiple high-dimensional datasets on the same subjects to capture complementary system components. Learning causal relationships at the dataset level clarifies how these components interact. Classical constraint-based methods such as PC and FCI operate on scalar variables, while multivariate extensions such as PCA-based or component-wise approaches either distort conditional independence or are computationally inefficient.
We propose a scalable dataset-level causal discovery framework that tests conditional independence directly between data views using Partial Canonical Correlation Analysis (PCCA). Under Gaussian assumptions, conditional independence is equivalent to vanishing partial canonical correlations, allowing a principled extension of constraint-based causal discovery to multivariate views.
Simulations and a real-world COVID-19 case study demonstrate improved skeleton accuracy and reduced runtime compared to existing methods.

Découverte causale entre ensembles de données via l'analyse de corrélation canonique partielle

Les études modernes collectent souvent plusieurs ensembles de données en grande dimension sur les mêmes sujets afin de saisir les composants complémentaires du système. L'apprentissage des relations causales au niveau des ensembles de données permet de clarifier la manière dont ces composants interagissent. Les méthodes classiques basées sur les contraintes, telles que PC et FCI, opèrent sur des variables scalaires, tandis que les extensions multivariées, telles que les approches basées sur PCA ou par composant, faussent l'indépendance conditionnelle ou sont inefficaces sur le plan informatique.
Nous proposons un cadre de découverte causale évolutif au niveau des ensembles de données qui teste directement l'indépendance conditionnelle entre vues de données à l'aide de l'analyse de corrélation canonique partielle (PCCA). Sous des hypothèses gaussiennes, l'indépendance conditionnelle équivaut à des corrélations canoniques partielles qui s'annulent, ce qui permet une extension raisonnée de la découverte causale basée sur des contraintes à des vues multivariées.
Des simulations et une étude de cas réelle sur la COVID-19 démontrent une amélioration de la précision du squelette et une réduction du temps d'exécution par rapport aux méthodes existantes.

Session

Student Research Presentation Award Competition in Statistics III

Date and Time