Flexible Tree Ensembles: Data Adaptive Splitting Rules
Accurate split selection in regression trees and random forests is critical for predictive performance. In regression trees, splits are selected by minimizing within-node variances weighted by node proportions. These weights directly influence the impurity reduction criterion. We modify the standard weighting scheme by applying power transformations to node proportions and examine how this modification influences split selection and predictive accuracy. The proposed framework is evaluated via simulations across a range of data-generating mechanisms, including varying signal strengths, noise levels, functional relationships, and covariate dependence structures and distributions. Performance is assessed via relative prediction error against the default weighting scheme, and the results demonstrate considerable improvements in predictive performance over the standard approach in some cases.
Keywords: Decision tree, Predictive performance, Random forest, Splitting rule, Weighting scheme
Keywords: Decision tree, Predictive performance, Random forest, Splitting rule, Weighting scheme
Ensembles d'arbres flexibles : règles de division adaptatives aux données
Une sélection précise des divisions dans les arbres de régression et les forêts aléatoires est essentielle pour la performance prédictive. Dans les arbres de régression, les divisions sont sélectionnées en minimisant les variances intranœuds pondérées par les proportions des nœuds. Ces pondérations influencent directement le critère de réduction de l'impureté. Nous modifions le schéma de pondération standard en appliquant des transformations de puissance aux proportions des nœuds et examinons comment cette modification influence la sélection des divisions et la précision prédictive. Le cadre proposé est évalué à l'aide de simulations impliquant une série de mécanismes de génération de données, notamment des intensités de signal variables, des niveaux de bruit, des relations fonctionnelles et des structures et distributions de dépendance des covariables. Les performances sont évaluées à l'aide de l'erreur de prédiction relative par rapport au système de pondération par défaut, et les résultats démontrent dans certains cas des améliorations considérables des performances prédictives par rapport à l'approche standard.
Mots-clés : Arbre de décision, Performances prédictives, Forêt aléatoire, Règle de division, Système de pondération
Mots-clés : Arbre de décision, Performances prédictives, Forêt aléatoire, Règle de division, Système de pondération
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English