Double Proximal Projection for Regularized Regression Models with Sparse Overlapping Latent Groups
The LASSO is popular for variable selection in high-dimensional regression settings with correlated features. For example, we may wish to identify regions of the brain associated with mental cognition, or chemical exposures predictive of health. When features can be grouped, optimization is challenging if groups are latent and overlapping. We assume the distribution over the feature set is represented by an undirected predictor graph with groups based on the (overlapping) node neighbourhoods. We decompose the regression coefficient vector into a sum of latent variables representing feature contributions to the coefficient vector and perform shrinkage and selection in the space of latent variables. Optimization proceeds by traversing the predictor graph, node by node, using a doubly proximal projection that iteratively projects the estimator under the L1 and L2 norm balls about the minimum. We show that our novel method scales well to high dimensions and apply it to real world data.
Double projection proximale pour les modèles de régression régularisés avec des groupes latents épars et superposés
Le LASSO est très utilisé pour la sélection de variables dans des contextes de régression à haute dimension avec des caractéristiques corrélées. Par exemple, nous pouvons souhaiter identifier les régions du cerveau associées à la cognition mentale, ou les expositions chimiques prédictives de la santé. Lorsque les caractéristiques peuvent être regroupées, l'optimisation est difficile si les groupes sont latents et se chevauchent. Nous supposons que la distribution de l'ensemble des caractéristiques est représentée par un graphique prédicteur non orienté dont les groupes sont basés sur les voisinages des nœuds (qui se chevauchent). Nous décomposons le vecteur de coefficient de régression en une somme de variables latentes représentant les contributions des caractéristiques au vecteur de coefficient et effectuons un rétrécissement et une sélection dans l'espace des variables latentes. L'optimisation se fait en parcourant le graphe du prédicteur, nœud par nœud, à l'aide d'une projection doublement proximale qui projette itérativement l'estimateur sous les boules de normes L1 et L2 autour du minimum. Nous montrons que notre nouvelle méthode s'adapte bien aux dimensions élevées et nous l'appliquons à des données réelles.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English