Multi-Class Classification with Imbalanced Data
Class imbalance in multi-class classification often leads to biased models favoring majority classes, degrading performance on minorities. We propose a novel cluster-based resampling method tailored for multi-class imbalanced data. It identifies class-specific structures via clustering, adaptively oversamples minority regions while preserving majority integrity. We evaluate the method using metrics suited to imbalanced data: precision-recall curves and average precision; Receiver Operating Characteristic (ROC) curves and area under the curve (AUC); Matthew’s correlation coefficient; and Cohen's kappa. Results from simulations and benchmarks show superior performance and efficiency compared to standard oversampling/undersampling baselines such as SMOTE (synthetic minority oversampling technique), especially in scenarios with high imbalance ratios.
Classification multi-classes avec données déséquilibrées
Le déséquilibre des classes dans la classification multi-classes conduit souvent à des modèles biaisés favorisant les classes majoritaires, ce qui dégrade les performances sur les minorités. Nous proposons une nouvelle méthode de rééchantillonnage basée sur le regroupement, adaptée aux données multi-classes déséquilibrées. Elle identifie les structures spécifiques à chaque classe via le regroupement, et suréchantillonne de manière adaptative les régions minoritaires tout en préservant l'intégrité des régions majoritaires. Nous évaluons la méthode à l'aide de mesures adaptées aux données déséquilibrées : courbes précision-rappel et précision moyenne ; courbes ROC (Receiver Operating Characteristic) et aire sous la courbe (AUC) ; coefficient de corrélation de Matthew ; et kappa de Cohen. Les résultats des simulations et d'analyses comparatives montrent une performance et une efficacité supérieures à celles des méthodes standard de suréchantillonnage/sous-échantillonnage telles que SMOTE (technique de suréchantillonnage synthétique des minorités), en particulier dans les scénarios présentant des taux de déséquilibre élevés.
Session
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English