Fully Synthetic Data for Complex Surveys

When seeking to release public use files for confidential data, statistical agencies can generate fully synthetic data. We propose an approach for making fully synthetic data from surveys collected with complex sampling designs. Specifically, we generate pseudo-populations by applying the weighted finite population Bayesian bootstrap to account for survey weights, take simple random samples from those pseudo-populations, estimate synthesis models using these simple random samples, and release simulated data drawn from the models as public use files. To facilitate variance estimation, we use the framework of multiple imputation with two data generation strategies. We present multiple imputation combining rules for each setting. We illustrate the repeated sampling properties of the combining rules via simulation studies. We apply the proposed methods to a subset of data from the American Community Survey.

Données entièrement synthétiques pour enquêtes complexes

Lorsqu'elles cherchent à publier des fichiers contenant des données confidentielles, les agences statistiques peuvent générer des données entièrement synthétiques. Nous proposons une approche permettant de créer de telles données à partir d'enquêtes réalisées selon des plans d'échantillonnage complexes. Plus précisément, nous générons des pseudo-populations en appliquant la méthode bayésienne du bootstrap pondéré sur une population finie afin de tenir compte des pondérations de l'enquête; nous prélevons des échantillons aléatoires simples à partir de ces pseudo-populations, puis nous estimons des modèles de synthèse à l'aide de ces échantillons, et publions les données simulées issues des modèles sous forme de fichiers à usage public. Pour faciliter l'estimation de la variance, nous utilisons le cadre de l'imputation multiple avec deux stratégies de génération de données. Nous présentons des règles de combinaison d'imputation multiple pour chaque configuration. Nous illustrons les propriétés d'échantillonnage répété de ces règles de combinaison à l'aide d'études de simulation. Nous appliquons les méthodes proposées à un sous-ensemble de données issues de l'American Community Survey.

Session

Advances in Data Privacy

Date and Time