Aller au contenu principal
Expectile and M-Quantile Regression in High Dimensions in the Presence of Missing Data for Polygenic Risk Scores Construction
Polygenic risk scores (PRS) are tool for predicting complex traits from genomic data, but their performance is limited by missing data and population heterogeneity. We propose a method combining penalized regression (LASSO, SCAD, MCP) and missing data handling without imputation (SCOM, DISCOM).
Our method estimates the predictor covariance matrix and the cross-covariance vector between predictors and the response variable using expectile and M-quantile loss functions to account for data heterogeneity. The model estimates the aggregated effect of missing values at the individual level without resorting to imputation. Theoretical properties are demonstrated under standard conditions. Simulations with 10–50% missing values show a significant reduction in mean squared error compared to classical methods. Application to the CARTaGENE cohort shows that our method improves predictive accuracy (R²) while maintaining acceptable computational complexity.
Régression d’expectile et de quantile m de grandes dimensions en présence de données manquantes pour la construction des scores de risque polygénique
Les scores de risque polygéniques (PRS) sont un outil de prédiction des traits complexes à partir de données génomiques, mais leur performance est limitée par les données manquantes et l’hétérogénéité des populations. Nous proposons une méthode combinant régression pénalisée (LASSO, SCAD, MCP) et gestion de données manquantes sans imputation (SCOM, DISCOM). Notre méthode estime la matrice de covariance des prédicteurs et le vecteur de covariance croisée entre prédicteurs et variable réponse en utilisant des fonctions de perte d’expectiles et de quantiles m, pour tenir compte de l’hétérogénéité. Le modèle estime l’effet agrégé des valeurs manquantes au niveau individuel sans recourir à l’imputation. Les propriétés théoriques sont démontrées sous conditions standard. Des simulations avec 10-50% de valeurs manquantes montrent une réduction significative de l’erreur quadratique moyenne versus les méthodes classiques. Appliquée à la cohorte CARTaGENE, la méthode améliore la précision prédictive (R²) tout en conservant une complexité computationnelle acceptable. Notre méthode établit un nouveau cadre théorique pour l’estimation robuste des PRS en présence de données manquantes, avec des implications importantes pour l’analyse statistique des données génomiques.
Date and Time
-
Co-auteurs (non y compris vous-même)
Catherine Laprise
Université du Québec à Chicoutimi / INRS
Amadou Barry
Centre Armand-Frappier INRS / Université du Québec à Chicoutimi
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Abdoul Oudouss Diakite INRS - Institut Armand-Frappier