TSMA: Two-stage Sampling Aggregation to Construct Classification Models for Imbalanced Data

Imbalanced classification presents significant challenges for machine learning models due to the underrepresentation of minority classes. Resampling can improve minority detection but introduces variability across random draws. We propose Two-Stage Sampling Aggregation (TSMA) and extend it to deep learning models (DL). TSMA-DL is an ensemble meta-algorithm that combines multiple resampling strategies with deep learning architectures through bootstrap aggregating. TSMA enables flexible integration of any resampling method with neural networks to form customized ensemble learners. Across three cohorts with varying imbalance ratios, TSMA-DL shows varying improvements in accuracy, precision, and F1 score; however, other metrics indicate that TSMA's ensemble may amplify noise in small datasets, highlighting the need for tailored optimizations in deep learning contexts. Nonetheless, TSMA's modularity offers potential for enhanced robustness in larger or more diverse imbalanced scenarios.

TSMA : Agrégation par échantillonnage en deux étapes pour construire des modèles de classification pour données déséquilibrées

La classification déséquilibrée pose des défis importants pour les modèles d'apprentissage automatique en raison de la sous-représentation des classes minoritaires. Le rééchantillonnage peut améliorer la détection dans la classe minoritaire, mais il introduit une variabilité entre les tirages aléatoires. Nous proposons l'agrégation par échantillonnage en deux étapes (TSMA) et l'étendons aux modèles d'apprentissage profond (DL). TSMA-DL est un méta-algorithme d'ensemble qui combine plusieurs stratégies de rééchantillonnage avec des architectures d'apprentissage profond grâce à l'agrégation bootstrap. TSMA permet l'intégration flexible de n'importe quelle méthode de rééchantillonnage avec des réseaux neuronaux pour former des ensembles d'apprentissage personnalisés. Sur trois cohortes présentant des ratios de déséquilibre variables, TSMA-DL montre des améliorations variables en termes d'exactitude, de précision et de score F1 ; cependant, d'autres mesures indiquent que l'ensemble TSMA peut amplifier le bruit dans les petits jeux de données, soulignant la nécessité d'optimisations sur mesure dans les contextes d'apprentissage profond. Néanmoins, la modularité du TSMA offre un potentiel de robustesse accrue sur des scénarios déséquilibrés plus importants ou plus diversifiés.

Session

Contributed Poster Presentations

Date and Time

Tue, 06/02/2026 - 13:30 - Tue, 06/02/2026 - 15:00

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English