RSS Bagging for Predictive Models in the Regression Setting
Limited training data can lead to high variance and instability in regression estimators. This study combines Ranked Set Sampling (RSS) with bootstrap aggregation (bagging) to improve regression estimation under limited data. Three sampling strategies are examined: bagging under Simple Random Sampling (SSB), rank-wise bagging with RSS training data (RSB), and SRS-to-RSS bagging via RSS bootstrap (SRB). Theoretical results establish the conditional unbiasedness and closed-form expressions for the conditional variances. Using rank information provably reduces variance compared to SSB. With only SRS training data, SRB achieves significant variance reduction and may outperform SSB and RSB. Extensive simulations in multiple linear and nonlinear settings, using paired and residual bootstraps, consider linear mixed models, LASSO regularization, linear and spline models as working models.
Keywords: Ranked Set Sampling, Bagging, Linear Mixed Models, Spline regression, LASSO regularization
Keywords: Ranked Set Sampling, Bagging, Linear Mixed Models, Spline regression, LASSO regularization
Échantillonnage par rangs pour les modèles prédictifs dans le cadre de régression
Des données d'apprentissage limitées peuvent entraîner une variance élevée et une instabilité dans les estimateurs de régression. Cette étude combine l'échantillonnage par rang (RSS) avec l'agrégation par bootstrap (bagging) afin d'améliorer l'estimation de régression dans le cadre de données limitées. Trois stratégies d'échantillonnage sont examinées : le bagging dans le cadre d'un échantillonnage aléatoire simple (SSB), le bagging par rang avec des données d'apprentissage RSS (RSB) et le bagging SRS-to-RSS par bootstrap RSS (SRB). Les résultats théoriques établissent l'absence de biais conditionnel et donnent des expressions explicites pour les variances conditionnelles. L'utilisation des informations de classement réduit de manière avérée la variance par rapport au SSB. Avec uniquement des données d'apprentissage SRS, le SRB permet une réduction significative de la variance et peut surpasser le SSB et le RSB. Des simulations approfondies dans plusieurs contextes linéaires et non linéaires, utilisant des bootstraps appariés et résiduels, prennent en compte les modèles mixtes linéaires, la régularisation LASSO, les modèles linéaires et spline comme modèles de travail.
Mots-clés : échantillonnage par rang, bagging, modèles mixtes linéaires, régression spline, régularisation LASSO
Mots-clés : échantillonnage par rang, bagging, modèles mixtes linéaires, régression spline, régularisation LASSO
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais