Quantile-Gated Variational Autoencoder: Applications to High-Dimensional Genomic Data of Small Sample Sizes

Variational Autoencoders (VAEs) learn latent representations by sampling once from each latent distribution, an approach that assumes sufficiently large mini-batches. In high-dimensional, low-sample settings such as genomics, this assumption breaks down, leading to high variance and information loss. We introduce the Quantile-Gated Variational Autoencoder (qgVAE), a novel architecture that draws multiple samples per latent distribution and aggregates them through a quantile-gated branching mechanism. This design assigns distinct functional roles to latent samples, enabling richer and more stable representations. We show theoretically that qgVAE preserves the variational properties of standard VAEs, including the ELBO, while reducing variance and maintaining sufficiency through injective quantile aggregation. Experiments on real genomic datasets across seven diseases demonstrate improved reconstruction accuracy and stronger downstream performance compared to standard VAE baselines.

Auto-encodeur variationnel à seuil quantile : applications aux données génomiques de haute dimension provenant d'échantillons de petite taille

Les auto-encodeurs variationnels (VAE) apprennent les représentations latentes en échantillonnant une fois à partir de chaque distribution latente, une approche qui suppose des mini-lots suffisamment grands. Dans des contextes de haute dimension et de faible échantillonnage tels que la génomique, cette hypothèse ne tient plus, ce qui entraîne une variance élevée et une perte d'informations. Nous présentons l'auto-encodeur variationnel à seuil quantile (qgVAE), une architecture novatrice qui prélève plusieurs échantillons par distribution latente et les agrège à l'aide d'un mécanisme de branchement à seuil quantile. Cette conception attribue des rôles fonctionnels distincts aux échantillons latents, ce qui permet d'obtenir des représentations plus riches et plus stables. Nous démontrons théoriquement que le qgVAE préserve les propriétés variationnelles des VAE standard, y compris l'ELBO, tout en réduisant la variance et en maintenant la suffisance grâce à une agrégation quantile injective. Des expériences menées sur des ensembles de données génomiques réels couvrant sept maladies démontrent une amélioration de la précision de la reconstruction et des performances en aval plus solides par rapport aux références VAE standard.

Session

Student Research Presentation Award Competition in Biostatistics II

Date and Time

Mon, 06/01/2026 - 16:30 - Mon, 06/01/2026 - 16:45

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English