Accounting for Network Noise in Graph-Guided Bayesian Modeling of High-Dimensional Omics Data

There is a growing body of literature on knowledge-guided statistical learning methods for analysis of high-dimensional omics data that can incorporate knowledge of underlying networks derived from functional genomics and functional proteomics. These methods have been shown to improve variable selection and prediction accuracy, and yield more interpretable results. However, these methods typically use graphs extracted from existing databases or rely on subject matter expertise which are known to be incomplete and may contain false edges. To address this gap, we propose a graph-guided Bayesian modeling framework to account for network noise in regression models involving structured high-dimensional predictors. We develop an efficient Markov chain Monte Carlo algorithm for posterior sampling. We demonstrate the advantages of our method over existing methods in simulations, and through analyses of a genomics dataset and another proteomics dataset for Alzheimer’s disease.

Prise en compte du bruit du réseau dans la modélisation bayésienne guidée par graphes de données omiques de grande dimension

Il existe un nombre croissant de publications sur les méthodes d'apprentissage statistique guidées par la connaissance pour l'analyse de données omiques de grande dimension qui peuvent intégrer les connaissances des réseaux sous-jacents dérivées de la génomique fonctionnelle et de la protéomique fonctionnelle. Ces méthodes ont démontré leur capacité à améliorer la sélection des variables et la précision des prédictions et à produire des résultats plus interprétables. Cependant, ces méthodes utilisent généralement des graphiques extraits de bases de données existantes ou s'appuient sur des connaissances spécialisées qui sont connues pour être incomplètes et peuvent contenir des bords erronés. Pour combler cette lacune, nous proposons un cadre de modélisation bayésienne guidée par des graphiques afin de tenir compte du bruit du réseau dans les modèles de régression impliquant des prédicteurs structurés de grande dimension. Nous développons un algorithme Monte Carlo par chaîne de Markov efficace pour l'échantillonnage à posteriori. Nous démontrons les avantages de notre méthode par rapport aux méthodes existantes dans des simulations et à travers l'analyse d'un ensemble de données génomiques et d'un autre ensemble de données protéomiques pour la maladie d'Alzheimer.

Session

Défis liés aux données sur le microbiome et aux données multi-omiques

Date and Time