Applying Regularized Regression Methods for Lung Epithelial Cell Type Classification in Single-Cell RNA Sequencing Data
The human lung epithelium is vital for respiratory function and is linked to numerous diseases. This study used regularized regression to classify epithelial cell types in the human lung, leveraging single-cell RNA sequencing (scRNA-seq) data from the integrated Human Lung Cell Atlas. Focusing on a subset of 272,726 epithelial cells with imbalanced distributions, we performed quality control and normalization, selecting the top 5,000 highly variable genes as features. Binary classifiers were built using regularized regression with cross-validation to ensure high accuracy. Preliminary findings suggest that rare cell types often get misclassified, which points to the tricky issue of class imbalance in scRNA-seq data. Still, this study shows that regularized regression has real promise for sorting out cell types. We’re now digging into ways to tackle the imbalance and boost performance, aiming to apply the model to the whole dataset down the line.
Application de méthodes de régression régularisée pour la classification des types de cellules épithéliales pulmonaires dans les données de séquençage d'ARN unicellulaire
L'épithélium pulmonaire humain est vital pour la fonction respiratoire et est lié à de nombreuses maladies. Cette étude utilise la régression régularisée pour classer les types de cellules épithéliales du poumon humain, en exploitant les données de séquençage d'ARN unicellulaire (scRNA-seq) de l'atlas intégré des cellules pulmonaires humaines. En nous concentrant sur un sous-ensemble de 272 726 cellules épithéliales présentant des distributions déséquilibrées, nous avons effectué un contrôle de la qualité et une normalisation, en sélectionnant les 5 000 gènes les plus variables comme caractéristiques. Nous avons construit des classificateurs binaires en utilisant la régression régularisée avec validation croisée pour assurer une grande précision. Les résultats préliminaires suggèrent que les types de cellules rares sont souvent mal classés, ce qui met en évidence le problème délicat de déséquilibre des classes dans les données scRNA-seq. Néanmoins, cette étude montre que la régression régularisée est vraiment prometteuse pour trier les types de cellules. Nous cherchons à présent des moyens de remédier au déséquilibre et d'améliorer les performances, dans le but d'appliquer le modèle à l'ensemble des données à l'avenir.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais