Flexible Statistical Approaches for Modeling Nonlinear Relationships in Diabetes Prediction using Splines, Bayesian Kernel Regression and Bayesian Regression Trees

Modeling nonlinear relationships remains a key challenge in statistical analysis. This study compares three flexible nonlinear modelling approaches: restricted cubic spline regression (RCS), Bayesian kernel machine regression (BKMR), and Bayesian additive regression trees (BART). RCS accommodates nonlinear effects through spline basis expansions, BKMR captures complex nonlinear and nonadditive relationships via kernel functions, and BART employs an ensemble of regression trees to flexibly model nonlinear structures without requiring prior functional specification. The methods are applied to the Pima Indians dataset to illustrate their performance. The existing studies have primarily focused on predictive accuracy using standard machine learning algorithms, while limited attention has been given to interpreting predictor-response relationships. This study addresses this gap by examining nonlinear associations and comparing results with those from a traditional logistic regression model.

Approches statistiques souples pour la modélisation des relations non linéaires dans la prédiction du diabète à l'aide de splines, de la régression bayésienne par noyau et des arbres de régression bayésiens

La modélisation des relations non linéaires reste un défi majeur dans l'analyse statistique. Cette étude compare trois approches de modélisation non linéaire souples : la régression par spline cubique restreinte (RCS), la régression bayésienne par noyau (BKMR) et les arbres de régression additifs bayésiens (BART). La RCS prend en compte les effets non linéaires grâce à des expansions de base spline, la BKMR capture les relations non linéaires et non additives complexes via des fonctions noyau, et la BART utilise un ensemble d'arbres de régression pour modéliser de manière souple les structures non linéaires sans nécessiter de spécification fonctionnelle préalable.
Nous appliquons ces méthodes à l'ensemble de données sur les Indiens Pima pour en illustrer les performances. Les études existantes se sont principalement concentrées sur la précision prédictive avec des algorithmes d'apprentissage automatique standard, mais l'interprétation des relations prédicteur-réponse a fait l'objet d'une attention limitée. Cette étude comble cette lacune en examinant les associations non linéaires et en comparant les résultats avec ceux d'un modèle de régression logistique traditionnel.

Session

Nouvelles frontières en modélisation de régression

Date and Time

mer 03/06/2026 - 10:50 - mer 03/06/2026 - 11:05

Co-auteurs (non y compris vous-même)

Harsha Blumer

Manitoba Centre for Health Policy, Rady Faculty of Health Sciences, University of Manitoba

Saman Muthukumarana

Department of Statistics, University of Manitoba

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker