Aller au contenu principal
Analyzing Decision Tree Bias Towards the Minority Class
There is a widespread and longstanding belief that machine learning models used for classification are biased towards the majority class when learning from imbalanced data, leading them to neglect the minority class. However, a recent simulation study has shown that decision trees can actually be biased towards the minority class. Our work aims to reconcile the conflict between that study and decades of other works. First, we critically evaluate past literature on this problem, finding that failing to consider the data generating process has led to incorrect conclusions about the bias in decision trees. We then prove that, under specific conditions, decision trees fit to purity and trained on a dataset with only one positive case are biased towards the minority class. Finally, we show that splits in a decision tree are also biased when there is more than one positive case. Our findings have implications on the use of popular tree-based classification models, such as random forests.
Analyse des biais des arbres de décision en faveur de la classe minoritaire
Plusieurs croient depuis longtemps que les modèles d'apprentissage automatique utilisés pour la classification sont biaisés en faveur de la classe majoritaire lorsqu'ils apprennent à partir de données déséquilibrées, ce qui les amène à négliger la classe minoritaire. Cependant, une étude de simulation récente a montré que les arbres de décision peuvent en fait être biaisés en faveur de la classe minoritaire. Notre travail vise à réconcilier le conflit entre cette étude et des décennies d'autres travaux. Tout d'abord, nous évaluons de manière critique la littérature antérieure sur ce problème, et nous constatons que le fait de ne pas prendre en compte le processus de génération des données a conduit à des conclusions incorrectes sur le biais des arbres de décision. Nous prouvons ensuite que, dans des conditions spécifiques, les arbres de décision adaptés à la pureté et formés sur un ensemble de données ne comportant qu'un seul cas positif sont biaisés en faveur de la classe minoritaire. Enfin, nous montrons que les divisions d'un arbre de décision sont également biaisées lorsqu'il y a plus d'un cas positif. Nos résultats ont des implications sur l'utilisation de modèles de classification populaires basés sur des arbres, tels que les forêts aléatoires.
Date and Time
-
Co-auteurs (non y compris vous-même)
Daniel J. Lizotte
University of Western Ontario
Douglas G. Woolford
University of Western Ontario
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Nathan Phelps University of Western Ontario