Smooth Zero-Inflated Modeling on Counting Tensors
Inferring three-dimensional genome organization from single-cell Hi-C data is statistically challenging due to extreme sparsity and noise. Each experiment produces a contact matrix of spatial proximity between genomic loci, where many zeros arise either from true biological absence of contact or from technical dropouts caused by limited sequencing depth. Distinguishing these sources is critical for accurate characterization of chromatin architecture. We represent single-cell Hi-C data as a three-dimensional tensor of loci-by-loci contact maps across cells and develop a tensor-based imputation framework based on a zero-inflated Poisson model. The model separates structural zeros from missing observations, addresses data sparsity, and enables efficient parameter estimation. Applied to real datasets, the method recovers missing contacts and improves data quality across cell types.
Modélisation lisse sans excès de zéros sur tenseurs de comptage
Déduire l'organisation tridimensionnelle du génome à partir de données Hi-C unicellulaires est statistiquement difficile en raison de l'extrême rareté et du bruit. Chaque expérience produit une matrice de contact représentant la proximité spatiale entre les loci génomiques, où de nombreux zéros proviennent soit d'une absence réelle de contact biologique, soit de pertes techniques causées par une profondeur de séquençage limitée. Il est essentiel de distinguer ces sources pour caractériser avec précision l'architecture de la chromatine. Nous représentons les données Hi-C unicellulaires sous la forme d'un tenseur tridimensionnel de cartes de contact locus par locus entre cellules et développons un cadre d'imputation basé sur un modèle de Poisson à excès de zéros. Le modèle sépare les zéros structurels des observations manquantes, traite la rareté des données et permet une estimation efficace des paramètres. Appliquée à des ensembles de données réels, la méthode récupère les contacts manquants et améliore la qualité des données entre les types de cellules.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais