Explainable Representation Learning Reveals Critical Genes in Cancers

Representation Learning (RL) is pivotal in high-dimensional data analysis. Previously eXplainable Artificial Intelligence (XAI) has been used to link the RL-learned latent space back to input features to improve the interpretability of black-boxes. In the reverse direction, our group has recently pioneered the use of “interpretability” to quantify the importance of input features. Using RNA data, we showed that genes contributing substantially to latent spaces are functionally relevant, with higher enrichment in disease databases than standard differentially expressed genes and hub genes do. In this work, we extend the model to evolutionary analysis, showing that genes prioritized by “interpretability” are under historical selection related to cancers, quantified by neutrality tests including Tajima’s D. These works jointly reveal the novel role of “interpretability”, which quantifies feature importance in complex models, similar to the variance component in standard linear analysis.

L'apprentissage par représentation explicable révèle des gènes critiques dans les cancers

L'apprentissage par représentation (RL) est essentiel dans l'analyse des données à haute dimension. Auparavant, l'intelligence artificielle eXplicable (XAI) a été utilisée pour relier l'espace latent appris en utilisant RL aux caractéristiques d'entrée afin d'améliorer l'interprétabilité des boîtes noires. Dans le sens inverse, notre groupe a récemment été le premier à utiliser l'« interprétabilité » pour quantifier l'importance des caractéristiques d'entrée. En utilisant des données d'ARN, nous avons montré que les gènes contribuant de manière substantielle aux espaces latents sont fonctionnellement pertinents, avec un enrichissement plus important dans les bases de données de maladies que les gènes standard exprimés de manière différentielle et les gènes pivots. Dans ce travail, nous étendons le modèle à l'analyse évolutive, en montrant que les gènes priorisés par l'« interprétabilité » sont soumis à une sélection historique liée aux cancers, quantifiée par des tests de neutralité, y compris le D de Tajima. Ces travaux révèlent conjointement le nouveau rôle de l'« interprétabilité », qui quantifie l'importance des caractéristiques dans les modèles complexes, de manière similaire à la composante de variance dans l'analyse linéaire standard.

Session

Développements récents en génétique statistique et génomique

Date and Time

mar 27/05/2025 - 15:45 - mar 27/05/2025 - 16:00

Co-auteurs (non y compris vous-même)

Jingjing Wu

University of Calgary

Quan Long

University of Calgary

Alexander Platt

University of Pennsylvania

Qingrun Zhang

University of Calgary

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker