Efficient and Robust Variable Selection in Large-Scale Data via $ L^k $-Quantile Regression with Distributed Computation and Inference

Large-scale data analysis raises challenges such as storage limitations, skewed distributions, heteroskedasticity, and high-dimensional covariates. Distributed storage alleviates computational and memory constraints, but requires communication-efficient statistical methods. This work studies penalized $L^{k}$-quantile regression for $1<k\leq2$ in distributed settings, incorporating SCAD and adaptive LASSO penalties for variable selection and sparsity. To address communication constraints, we propose a communication-efficient surrogate loss, termed CSL$^{k}$, which approximates the global $L^{k}$-quantile objective. A parallel ADMM-based algorithm is developed to minimize the resulting penalized CSL$^{k}$ problem. We establish oracle properties of the proposed estimators under suitable tuning parameters. Extensive simulations and a real-data application demonstrate the finite-sample performance and practical effectiveness of the method.

Sélection efficace et robuste de variables dans des données à grande échelle via une régression quantile $ L^k $ avec calcul et inférence distribués

L’analyse de données à grande échelle pose d’importants défis, notamment des contraintes de stockage, des distributions asymétriques, une hétéroscédasticité marquée et la présence de covariables de grande dimension. Le stockage distribué permet d’alléger les charges computationnelles, mais nécessite des méthodes statistiques efficaces en communication. Ce travail étudie la régression quantile $L^{k}$ pénalisée, pour $1<k\leq 2$, dans un cadre distribué, en intégrant les pénalités SCAD et adaptive LASSO afin de réaliser la sélection de variables et d’obtenir des solutions parcimonieuses. Pour tenir compte de la nature distribuée des données, nous proposons une fonction de perte de substitution économe en communication, appelée CSL$^{k}$, qui approxime la fonction de perte globale de la régression quantile $L^{k}$. Un algorithme distribué basé sur la méthode ADMM parallèle est développé pour minimiser le critère CSL$^{k}$ pénalisé. Les propriétés oracle des estimateurs obtenus sont établies sous des choix appropriés des paramètres de régularisation. Des études de simulation approfondies ainsi qu’une application sur données réelles illustrent les performances en échantillon fini et l’efficacité pratique de la méthode proposée.

Session

New Frontiers in Regression Modelling

Date and Time