Statistical Inference for a Finite Population Mean with Machine Learning-Based Imputation for Missing Survey Data

Machine learning (ML) has garnered significant attention in national statistical offices for its potential to enhance survey estimates. ML techniques offer several advantages, including the ability to handle high-dimensional data and robustness to complex, nonlinear relationships. In particular, ML methods can be useful for imputing missing data. In this presentation, we will discuss ongoing work on doubly robust estimation methods based on ML. We will highlight their advantages, practical implementation, and variance estimation. Finally, we will present simulation results evaluating the performance of point and variance estimators.

Inférence statistique pour la moyenne d'une population finie avec imputation de données manquantes basée sur l’apprentissage automatique

L’apprentissage automatique (AA) suscite un intérêt croissant au sein des offices nationaux de statistique en raison de son potentiel à améliorer les estimations produites par les enquêtes. Les techniques d'AA offrent plusieurs avantages, notamment la capacité de traiter des données de grande dimension et une robustesse en présence de relations complexes et non linéaires. En particulier, elles peuvent être utiles pour l’imputation des données manquantes. Dans cette présentation, nous discuterons de travaux en cours sur les méthodes d’estimation doublement robustes basées sur l'AA. Nous discuterons de leurs avantages, leur mise en œuvre pratique et l’estimation de leur variance. Enfin, nous présenterons les résultats de simulations évaluant la performance des estimateurs ponctuels et de variance.

Session

Défis et opportunités actuels en matière de mesure de la qualité des statistiques d'enquête

Date and Time