Ensuring Reliability in Air Pollution Research by Quantifying Uncertainty in Air Pollution Models
Given the ongoing climate crisis and rise in extreme weather events, it is crucial to understand the environment's impact on human health. With abundant and complex environmental data, machine learning (ML) methods have gained popularity over traditional statistics to analyze spatial and temporal trends. Yet, many ML methods have limited or no ability to quantify uncertainty, which is vital for making insightful interpretations of predictions. We investigate Extreme Gradient Boosting (XGBoost), a popular ML method, and show how a modified quantile regression can be incorporated to generate point-wise prediction intervals for specific quantiles, while allowing XGBoost to perform efficiently by finding solutions rapidly using optimal gradient descent rates. We then compare our approach to an arctan pinball loss quantile regression method and the quantile regression implementation in the XGBoost Python package, using California wildfire event data to predict particulate matter exposure.
Garantir la fiabilité de la recherche sur la pollution atmosphérique en quantifiant les incertitudes dans les modèles de pollution atmosphérique
Avec la crise climatique actuelle et l'augmentation des événements météorologiques extrêmes, il est plus important que jamais de comprendre l'impact de l'environnement sur la santé humaine. Face à l'abondance et à la complexité des données environnementales, les méthodes d'apprentissage automatique ont gagné en popularité par rapport aux statistiques traditionnelles pour analyser les tendances spatiales et temporelles. Cependant, de nombreuses méthodes d'apprentissage automatique ont une capacité limitée ou inexistante à quantifier l'incertitude, ce qui est vital pour une interprétetation éclairée des prédictions. Nous étudions l'Extreme Gradient Boosting (XGBoost), une méthode d'apprentissage automatique populaire, et montrons comment une régression quantile modifiée peut être incorporée pour générer des intervalles de prédiction ponctuels pour des quantiles spécifiques, tout en permettant à XGBoost d'être efficace en trouvant des solutions rapidement à l'aide de taux de descente de gradient optimaux. Nous comparons ensuite notre approche à une méthode de régression quantile par fonction de perte <<arctan pinball>>, et à l'implémentation de la régression quantile dans la librarie Python XGBoost, en utilisant des données des incendies de forêt en Californie pour prédire l'exposition aux particules fines.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Français