Statistical Network Inference and Analysis to Characterize Co-Purchasing Patterns in Quebec from Large-Scale Grocery Transaction Data
Nutritional researchers increasingly use digital grocery transaction data to characterize the dependency of food items consumed, for which statistical network analysis is natural. To address the challenges of longitudinal and sparse count data, we adopt a recently introduced Poisson Lognormal Graphical Model to infer partial correlation networks from weekly purchase counts of 53 different food groups over a 3-year period. We study the variation in graph structure across the resulting 156-layer multi-network using multi-network clustering methods. Our results show that these methods produce food groupings that a) are stable across seasons and b) closely align with labels of “healthy” and “unhealthy” (assigned a priori through expert opinion). We combine this with time series methods to study the seasonal trends and variation of node, edge and graph-level properties. Using census data, we also show differences in clustering patterns across educational strata.
Inférence et analyse statistiques de réseaux pour caractériser les habitudes d'achats conjoints au Québec à partir de données transactionnelles à grande échelle provenant de supermarchés
Les chercheurs en nutrition utilisent de plus en plus les données numériques relatives aux transactions alimentaires pour caractériser la dépendance des produits alimentaires consommés, pour lesquels l'analyse statistique des réseaux est tout à fait naturelle. Afin de relever les défis posés par les données longitudinales et les données de comptage clairsemées, nous adoptons un modèle graphique poisson-lognormal récemment introduit pour déduire des réseaux de corrélation partielle à partir des comptages hebdomadaires des achats de 53 groupes alimentaires différents sur une période de trois ans. Nous étudions la variation de la structure du graphe à travers le multiréseau à 156 couches qui en résulte à l'aide de méthodes de regroupement multiréseau. Nos résultats montrent que ces méthodes produisent des regroupements alimentaires qui a) sont stables au fil des saisons et b) correspondent étroitement aux étiquettes « saine » et « malsaine » (attribués a priori par des experts). Nous combinons cela avec des méthodes de séries chronologiques pour étudier les tendances saisonnières et la variation des propriétés au niveau des nœuds, des arêtes et des graphes. À l'aide de données de recensement, nous montrons également les différences dans les modèles de regroupement entre les strates éducatives.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais