Canonical Correlation Analysis (CCA) as Reduced Rank Regression (RRR) in High Dimensions
Canonical Correlation Analysis seeks linear relationships between two sets of variables, but standard estimators become inconsistent in high dimensions without additional structure. A common approach imposes sparsity, assuming that only a subset of variables defines the canonical directions. However, existing sparse CCA methods face scalability and adaptability challenges. We propose an alternative estimator based on reduced-rank regression, applicable when one dataset is high-dimensional and the other remains low-dimensional. By casting the problem as a regression problem, our estimator leverages the rich statistics literature on high-dimensional regression and is easily adaptable to accommodate a wider range of structural priors. It is computationally efficient and achieves up to a 50% reduction in estimation error compared to existing methods in simulations. We further demonstrate its practical utility through real data applications, uncovering meaningful variable associations.
Analyse de corrélation canonique (CCA) en guise de régression à rang réduit (RRR) de grande dimension
L’analyse de corrélation canonique (CCA) cherche à identifier des relations linéaires entre deux ensembles de variables, mais les estimateurs classiques deviennent incohérents en grande dimension sans hypothèses structurelles supplémentaires. Une approche courante impose la parcimonie, supposant qu’un sous-ensemble de variables définit les directions canoniques. Cependant, les méthodes de CCA parcimonieuse existantes rencontrent des défis en termes d’extensibilité et d’adaptabilité. Nous proposons un estimateur alternatif basé sur la régression à rang réduit, applicable lorsqu’un jeu de données est de grande dimension et l’autre de faible dimension. En reformulant le problème comme une régression, notre estimateur exploite la littérature statistique riche sur la régression en grande dimension et s’adapte facilement à une large gamme d’hypothèses structurelles. Il est efficace sur le plan calculatoire et réduit l’erreur d’estimation jusqu’à 50 % par rapport aux méthodes existantes en simulation. Enfin, nous démontrons son utilité empirique à travers des applications sur des données réelles, révélant des associations significatives entre variables.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais