Aller au contenu principal
Predicting Rare Events Using Training Data from Stratified Sampling Designs, with Application to Human-Caused Wildfire Prediction
Large datasets are increasingly common as data collection and storage methods advance. However, when a large dataset represents a rare event, it may contain few observations of event occurrences (ones), versus many non-occurrences (zeros). To reduce computation time, response-based subsampling of the data is often employed in such cases, where all ones and a subsample of zeros are used for modelling. I present an extension of response-based sampling in which a covariate related to event occurrence is used to create a stratified subsampling design, with the goal of ensuring a representative subsample of the large data. I adjust the logistic regression model of the rare event with stratum-specific offsets. I illustrate this approach by modelling wildfire occurrence in northern Ontario, where stratifying based on fire weather increases the number of observations sampled from extreme weather conditions and leads to higher local precision of the estimated probability of fire occurrence.
Prévision d'événements rares à l'aide de données d'entraînement provenant de plans d'échantillonnage stratifiés, avec application à la prédiction des feux de forêt d'origine humaine
Les grands ensembles de données sont de plus en plus courants à mesure que les méthodes de collecte et de stockage des données progressent. Toutefois, lorsqu'un grand ensemble de données représente un événement rare, il peut contenir peu d'observations d'occurrences d'événements (des uns), contre de nombreuses non-occurrences (des zéros). Pour réduire le temps de calcul, un sous-échantillonnage des données basé sur la réponse est souvent utilisé dans de tels cas, où tous les uns et un sous-échantillon de zéros sont utilisés pour la modélisation. Je présente une extension de l'échantillonnage basé sur la réponse dans laquelle une covariable liée à l'occurrence de l'événement est utilisée pour créer un plan de sous-échantillonnage stratifié, dans le but de garantir un sous-échantillon représentatif des données volumineuses. J'ajuste le modèle de régression logistique de l'événement rare avec des décalages spécifiques à la strate. J'illustre cette approche en modélisant l'occurrence des feux de forêt dans le nord de l'Ontario, où la stratification basée sur les conditions météorologiques des incendies augmente le nombre d'observations échantillonnées dans des conditions météorologiques extrêmes et conduit à une plus grande précision locale de la probabilité estimée de l'occurrence des incendies.
Date and Time
-
Co-auteurs (non y compris vous-même)
Simon Bonner
University of Western Ontario
Douglas Woolford
University of Western Ontario
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Johanna de Haan-Ward University of Western Ontario