Automatic Relevance Determination Variational Autoencoder for Single-Cell DNA Methylation Analysis and Batch Correction

Single-cell bisulfite sequencing (scBS-seq) enables high-resolution DNA methylation profiling but faces challenges from extreme sparsity, technical noise, and batch effects. We evaluate the Automatic Relevance Determination Variational Autoencoder (ARD-VAE), a probabilistic deep generative model that extends conventional VAEs by incorporating a hierarchical Bayesian, data-driven prior to encourage latent space sparsity. This approach facilitates automated feature selection and robust dimensionality reduction in sparse epigenetic data. Using mouse brain scBS-seq data, we benchmark ARD-VAE against MethylVI and standard pipelines across: cell clustering, data imputation, and batch correction. Our implementation demonstrates that ARD-VAE yields superior clustering accuracy and more effective batch integration while maintaining competitive imputation performance. This work highlights the potential of hierarchical priors in deep generative frameworks for integrative single-cell analysis.

Auto-encodeur variationnel à détermination automatique de pertinence pour l'analyse de la méthylation de l'ADN en cellule unique et la correction d'effets de lot

Le séquençage au bisulfite en cellule unique (scBS-seq) permet un profilage de la méthylation de l'ADN à haute résolution, mais se heurte aux défis de l'extrêmement faible densité des données (sparsity), du bruit technique et des effets de lot. Nous évaluons l'auto-encodeur variationnel à détermination automatique de pertinence (ARD-VAE), un modèle génératif profond probabiliste qui étend les VAE conventionnels en incorporant un a priori bayésien hiérarchique dicté par les données pour favoriser la parcimonie de l'espace latent. Cette approche facilite la sélection automatique de variables et une réduction de dimensionnalité robuste pour les données épigénétiques éparses. En utilisant des données scBS-seq de cerveau de souris, nous comparons l'ARD-VAE à MethylVI et aux pipelines standards sur des tâches clés : partitionnement cellulaire (clustering), imputation de données et correction d'effets de lot. Notre mise en œuvre démontre que l'ARD-VAE produit une meilleure précision de partitionnement et une intégration de lots plus efficace, tout en maintenant des performances d'imputation compétitives. Ce travail souligne le potentiel des a priori hiérarchiques dans les cadres génératifs profonds pour l'analyse intégrative en cellule unique.

Session

Statistics Meets Science: Methodology Across the Genome

Date and Time