Towards an Empirical Sample Size Calculator for Training Ensemble Machine Learning Models on Health Data

Machine learning (ML) models are increasingly used in clinical research, yet most studies lack validated methods for determining adequate sample sizes, often relying on outdated heuristics. This study introduces an empirically derived sample size calculator tailored for ensemble ML models—Random Forests, LightGBM, and XGBoost—trained on tabular health data. Our method introduces the concept of certainty curves, which estimate the probability that a model trained on a given sample size achieves a target ROC-AUC relative to the optimal model trained on the full population. Using simulations across 13 large health datasets, we trained over 89,000 models and built a predictive calculator using dataset characteristics like class imbalance, entropy, and degrees of freedom. Compared to existing methods, our calculator showed significantly lower error rates, providing a robust solution for ML study design, regulatory submissions, and adherence to reporting guidelines.

Vers un calculateur empirique de taille d'échantillon pour l'entraînement de modèles d'apprentissage automatique d'ensemble sur des données de santé

Les modèles d'apprentissage automatique (ML) sont de plus en plus utilisés dans la recherche clinique, mais la plupart des études ne disposent pas de méthodes validées pour déterminer la taille adéquate des échantillons et s'appuient souvent sur des heuristiques obsolètes. Cette étude présente un calculateur de taille d'échantillon dérivé empiriquement et adapté aux modèles ML d'ensemble (Random Forests, LightGBM et XGBoost) entraînés sur des données de santé tabulaires. Notre méthode introduit le concept de courbes de certitude, qui estiment la probabilité qu'un modèle formé sur un échantillon de taille donnée atteigne une valeur ROC-AUC cible par rapport au modèle optimal formé sur l'ensemble de la population. À l'aide de simulations sur 13 grands ensembles de données de santé, nous avons formé plus de 89 000 modèles et construit un calculateur prédictif utilisant les caractéristiques des ensembles de données telles que le déséquilibre des classes, l'entropie et les degrés de liberté. Par rapport aux méthodes existantes, notre calculateur a affiché des taux d'erreur nettement inférieurs, offrant une solution robuste pour la conception d'études de ML, les soumissions réglementaires et le respect des directives en matière de compte rendu.

Session

New Frontiers in Machine Learning

Date and Time