Advanced Techniques for Mitigating Abnormal Instances and Class Imbalance in High-Dimensional Data Classification

Imbalanced datasets are a common challenge in machine learning, often leading to biased models that favor the majority class. This challenge is further compounded by abnormal instances, such as outliers, within the minority class, which reduce the effectiveness of traditional resampling methods like SMOTE. To address these challenges, we introduce Dirichlet ExtSMOTE, a novel SMOTE extension that uses weighted averages of neighboring instances to enhance synthetic sample quality and mitigate the impact of outliers. Additionally, we propose Deep-ExtSMOTE, which integrates autoencoder-based dimensionality reduction with ExtSMOTE to tackle both class imbalance and the curse of dimensionality. Empirical evaluations on both simulated and real-world datasets demonstrate that these methods consistently outperform standard SMOTE, with Dirichlet ExtSMOTE and Deep-ExtSMOTE achieving superior classification performance, as indicated by higher F1 scores, MCC, and PR-AUC.

Techniques avancées d’atténuation des instances anormales et du déséquilibre des classes dans la classification des données de haute dimension

Les ensembles de données déséquilibrés représentent un défi courant dans l’apprentissage automatique, conduisant souvent à des modèles biaisés qui favorisent la classe majoritaire. Ce défi est encore aggravé par des instances anormales, telles que des valeurs aberrantes, au sein de la classe minoritaire, qui réduisent l’efficacité des méthodes de rééchantillonnage traditionnelles telles que SMOTE. Pour relever ces défis, nous présentons Dirichlet ExtSMOTE, qui utilise les moyennes pondérées des instances voisines pour améliorer la qualité de l’échantillon synthétique et atténuer l’impact des valeurs aberrantes. En outre, nous proposons Deep-ExtSMOTE, qui intègre la réduction de la dimensionnalité basée sur un autoencodeur à l’aide de ExtSMOTE pour traiter à la fois le déséquilibre des classes et le fléau de la dimensionnalité. Des évaluations empiriques sur des ensembles de données simulées et réelles démontrent que ces méthodes sont toujours plus performantes que le SMOTE standard, le Dirichlet ExtSMOTE et le Deep-ExtSMOTE atteignant des performances de classification supérieures, comme l’indiquent les meilleurs scores F1, MCC et PR-AUC.

Session

Nouvelles frontières de la science des données

Date and Time