Improve Survey Inference Using Bayesian Machine Learning
We consider survey inference from nonrandom samples in data-rich settings where high-dimensional auxiliary information is available both in the sample and the target population. When we have access to the individual-level data of the auxiliary variables in the population, we propose a regularized prediction inference approach that predicts the outcomes in the population based on the large number of auxiliary variables using Bayesian additive regression trees (BARTs) and its extensions. Our simulation studies reveal that the regularized predictions using BARTs yield valid inferences for the population means with coverage rates close to the nominal levels. We extend the method to accommodate two-phase designs, scenarios involving population data with confidentiality constraints, and cases where only the population margins of the auxiliary variables are available. We demonstrate the application of the proposed methods using health surveys.
Améliorer l'inférence sur des données d'enquêtes à l'aide de l'apprentissage automatique bayésien
Nous considérons l'inférence sur des données d'enquêtes à partir d'échantillons non aléatoires dans des contextes riches en données où des informations auxiliaires en haute dimensions sont disponibles à la fois dans l'échantillon et dans la population cible. Lorsque nous avons accès aux données individuelles des variables auxiliaires dans la population, nous proposons une approche d'inférence de prévision régularisée qui prédit les résultats dans la population sur la base du grand nombre de variables auxiliaires à l'aide d'arbres de régression additifs bayésiens (BART) et de leurs extensions. Nos études de simulation révèlent que les prédictions régularisées utilisant les BART produisent des inférences valides pour les moyennes de la population avec des taux de couverture proches des niveaux nominaux. Nous étendons la méthode pour prendre en compte les plans à deux phases, les scénarios impliquant des données de population avec des contraintes de confidentialité, et les cas où seules les marges des variables auxiliaires sont disponibles pour la population. Nous démontrons l'application des méthodes proposées à l'aide d'enquêtes sur la santé.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English