Group spike-and-slab lasso for high-dimensional Cox proportional hazards models
Cox proportional hazards models are vital for survival analysis but face overfitting and interpretability issues in high dimensions. We propose Group Spike-and-Slab Lasso (GSSL), a Bayesian method with spike-and-slab priors, for selective group-level variable inclusion. By quantifying posterior inclusion probabilities, GSSL excludes irrelevant groups and enhances interpretability when covariates cluster (e.g., genes in genomics). To efficiently optimize the penalized partial likelihood, GSSL employs EM and coordinate-wise updates. We establish theoretical guarantees, showing Bayesian oracle properties that yield robust selection and prediction. Simulations highlight GSSL’s superior performance, and applications to genomic and clinical datasets underscore its value in extracting biologically meaningful insights. Applied to synthetic and real-world data, GSSL outperforms alternatives, improving interpretability and broadening applicability in genomics and clinical studies.
Group spike-and-slab lasso pour les modèles de risques proportionnels de Cox à haute dimension
Les modèles de risques proportionnels de Cox sont essentiels pour l’analyse de survie, mais ils rencontrent des problèmes de surajustement et d’interprétabilité dans des contextes à haute dimension. Nous proposons le Group Spike-and-Slab Lasso (GSSL), une méthode bayésienne fondée sur des lois a priori spike-and-slab pour sélectionner les variables au niveau des groupes. En quantifiant les probabilités d’inclusion a posteriori, GSSL exclut les groupes non pertinents et renforce l’interprétabilité lorsque les covariables se regroupent (par ex. les gènes en génomique). Pour optimiser efficacement la vraisemblance partielle pénalisée, GSSL recourt à l’algorithme EM et à des mises à jour coordonnée par coordonnée. Nous établissons des garanties théoriques montrant des propriétés d’oracle bayésien, assurant une sélection et une prédiction robustes. Les simulations soulignent les performances supérieures de GSSL, et des applications sur des ensembles de données génomiques et cliniques confirment sa valeur pour extraire des informations biologiquement pertinentes. Appliqué à des données synthétiques et réelles, GSSL surpasse les méthodes alternatives, améliorant l’interprétabilité et élargissant son champ d’application en génomique et en études cliniques.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais