Missing Data Imputation Strategies: A Comparative Analysis of hourly and daily pollution Models
Epidemiological studies have consistently demonstrated the association between daily pollution exposure and disease outcomes. To estimate daily exposure, hourly pollution data are commonly aggregated, but missing data pose a significant challenge to this approach. To overcome this issue, some researchers have developed various models to impute missing hourly data. Alternatively, directly modelling pollution exposure on a daily basis is possible, thereby avoiding the computational burden of hourly pollution modelling. However, the performance of these two modelling strategies remains unclear. This study conducts a comparative assessment between hourly and daily modelling strategies for the purpose of estimating daily pollution exposure. Utilizing data derived from Guangzhou city, the analysis encompasses diverse scenarios of data absence. The outcomes consistently highlight the superior performance of daily pollution models in terms of mitigated bias and diminished RMSE values.
Stratégies d'imputation des données manquantes : Analyse comparative des modèles de pollution horaire et journalière
Les études épidémiologiques ont constamment démontré l'association entre l'exposition quotidienne à la pollution et les conséquences de la maladie. Pour estimer l'exposition quotidienne, les données horaires sur la pollution sont généralement agrégées, mais les données manquantes constituent un défi important pour cette approche. Pour résoudre ce problème, les chercheurs ont développé divers modèles pour imputer les données horaires manquantes. Il est également possible de modéliser directement l'exposition à la pollution sur une base journalière, ce qui permet d'éviter la charge de calcul liée à la modélisation horaire de la pollution. Toutefois, les performances de ces deux stratégies de modélisation restent floues. La présente étude procède à une évaluation comparative des stratégies de modélisation horaire et journalière dans le but d'estimer l'exposition journalière à la pollution. Utilisant des données provenant de la ville de Guangzhou, l'analyse englobe divers scénarios d'absence de données. Les résultats mettent systématiquement en évidence la performance supérieure des modèles de pollution quotidiens en termes de biais atténués et de valeurs réduites de l'EQM.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English