Aller au contenu principal
Representation Learning for Unstructured Genetic Data with Applications to Polygenic Analysis of Complex Traits
Variational Autoencoders (VAEs) are powerful tools for capturing hidden representations of complex data through latent distributions in a bottleneck layer. However, in applications of VAEs to fields such as genomics, where data are often high-dimensional but of low sample size, limitations arise due to inherently small mini-batches and specific challenges in biological and medical contexts. To address these issues, we developed the Quantile-Gated Variational Autoencoder (qgVAE), which introduces a novel quantile-gated branching network architecture to support multiple samples drawn from each latent distribution. We also developed Discrete Variational Autoencoder (dVAE) that discretized but still differentiable loss functions. Empirical results using real genomic data from seven diseases further validate qgVAE and dVAE’s effectiveness in achieving superior reconstruction accuracy and improved performance in downstream applications of polygenic analysis of complex traits.
Apprentissage de représentation pour les données génétiques non structurées appliqué à l'analyse polygénique des traits complexes
Les autoencodeurs variationnels (VAE) sont des outils puissants pour capturer des représentations cachées de données complexes via des distributions latentes dans une couche de goulot d'étranglement. Cependant, dans les applications des VAEs à des domaines tels que la génomique, où les données sont souvent de grande dimension, mais avec une faible taille d'échantillon, des limitations surviennent en raison des mini-lots intrinsèquement petits et des défis spécifiques aux contextes biologiques et médicaux. Pour répondre à ces problématiques, nous avons développé l'autoencodeur variationnel à portillon quantile (qgVAE), qui introduit une nouvelle architecture de réseau à branches à porte-quantile pour prendre en charge plusieurs échantillons extraits de chaque distribution latente. Nous avons également développé l’autoencodeur variationnel discret (dVAE), qui utilise des fonctions de perte discrétisées, mais toujours différentiables. Les résultats empiriques obtenus à partir de données génomiques réelles provenant de sept maladies valident davantage l’efficacité de qgVAE et de dVAE en termes de précision de reconstruction supérieure et de performances améliorées dans les applications en aval de l’analyse polygénique des traits complexes.
Date and Time
-
Co-auteurs (non y compris vous-même)
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Quan Long University of Calgary