Spatial Prediction of PM2.5 in Ontario Using Supervised and Semi-Supervised Machine Learning

In this project, we create an Ontario CMA-centric, ground-level, daily PM2.5 model that fuses monitors, satellite products, reanalysis meteorology, and neighbourhood/built-environment predictors, with local validation and benchmarking to deliver new health data linkage-ready exposure needed for environmental health studies. Existing PM2.5 prediction studies predominantly rely on fully supervised models trained exclusively on labeled monitoring data, leaving the extensive unlabeled spatial predictor information underused. The prediction models include two semi-supervised approaches (Laplacian Regularized Least Squares and semi-supervised Variational Autoencoder) with five supervised algorithms (XGBoost, MARS, Random Forest, Decision Tree, Neural Network) using 10-fold cross-validation. The resulting exposure surfaces (2010–2023) support future PM2.5 related health research and policy making.

Prévision spatiale des PM2.5 en Ontario à l'aide de l'apprentissage automatique supervisé et semi-supervisé

Dans le cadre de ce projet, nous créons un modèle quotidien des PM2,5 au niveau du sol, centré sur la région métropolitaine de l'Ontario, qui fusionne les données de moniteurs, les produits satellitaires, la météorologie de réanalyse et les prédicteurs du quartier/de l'environnement bâti, avec une validation et une analyse comparative locales. Ce modèle fournira de nouvelles données sur l'exposition, prêtes à être reliées à d'autres données sur la santé, nécessaires aux études sur la santé environnementale. Les études existantes sur la prévision des PM2,5 s'appuient principalement sur des modèles entièrement supervisés, entraînés exclusivement sur des données de surveillance étiquetées, laissant de côté les nombreuses prédictions spatiales non étiquetées. Les modèles de prévision comprennent deux approches semi-supervisées (méthode des moindres carrés régularisée par le laplacien et auto-encodeur variationnel semi-supervisé) ainsi que cinq algorithmes supervisés (XGBoost, MARS, forêt aléatoire, arbre de décision, réseau neuronal), avec une validation croisée en 10 plis. Les cartes d'exposition obtenues (2010-2023) serviront de base aux futures recherches sur la santé et à l'élaboration des politiques relatives aux PM2,5.

Session

Concours pour le Prix de la meilleure présentation par affiche de recherche étudiante

Date and Time

mar 02/06/2026 - 10:20 - mar 02/06/2026 - 11:50

Co-auteurs (non y compris vous-même)

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker