Optimal Subsampling Methods for Mixed Data Types: A Progressive Proportional Sampling Framework
Large datasets containing both continuous and categorical variables pose computational challenges for regression analysis, and naive random sampling often fails to preserve the distribution of categorical groups. This paper introduces Progressive Proportional Sampling(PPS), a subsampling framework that maintains proportional representation across categorical strata while selecting observations that maximize estimation efficiency. Drawing on A-optimality and D-optimality criteria from experimental design, PPS iteratively improves subsample quality through within-stratum exchanges. We establish theoretical foundations and conduct simulation studies that demonstrate consistent improvements in mean squared prediction error relative to simple random sampling. An application to air quality data, featuring mixed continuous measurements and categorical temporal variables, illustrates the practical implementation of the method.
Méthodes optimales de sous-échantillonnage pour données mixtes : un cadre d'échantillonnage proportionnel progressif
Les grands ensembles de données contenant à la fois des variables continues et catégorielles posent des défis informatiques pour l'analyse de régression, et l'échantillonnage aléatoire naïf ne préserve souvent pas la distribution des groupes catégoriels. Cet article présente l'échantillonnage proportionnel progressif (PPS), un cadre de sous-échantillonnage qui maintient une représentation proportionnelle entre strates catégorielles tout en sélectionnant les observations qui maximisent l'efficacité de l'estimation. S'appuyant sur des critères d'optimalité A et D issus de la conception expérimentale, le PPS améliore de manière itérative la qualité des sous-échantillons par des échanges au sein de la strate. Nous établissons les fondements théoriques de la méthode et menons des études de simulation qui démontrent une amélioration de l'erreur de prédiction quadratique moyenne par rapport à l'échantillonnage aléatoire simple. Nous illustrons la méthode sur des données sur la qualité de l'air, comprenant des mesures continues mixtes et des variables temporelles catégorielles.
Session
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English