Covariate Selection in Simplex Regression, with Applications to Wastewater-based Epidemiology of COVID-19 Variants of Concern
Wastewater-based epidemiology (WBE) for COVID-19 variants of concern ("variants") uses wastewater samples to determine frequency of individual mutations, which are compared to known variants to determine abundance of those variants. The abundance is estimated based on linear models with no intercept and binary covariate (1 if a given mutation is part of the definition of a variant and 0 otherwise). The abundances should be valid proportions, i.e. be positive and sum to 1 or less. If the constrained regression contains extraneous covariates, then the coefficients will be biased. In this work, we demonstrate the theoretical and empirical bias/variance of the estimators and suggest covariate selection techniques based on LASSO, machine learning, and Bayesian methods. Samples are collected over time, so we also investigate temporal components, constraining covariates to appear in samples and then die out, being present for all intermediate samples.
Sélection de covariables dans la régression simplex, avec des applications à l'épidémiologie basée sur les eaux usées des variantes préoccupantes du COVID-19
L'épidémiologie basée sur les eaux usées pour les variantes préoccupantes de COVID-19 (« variantes ») utilise des échantillons d'eaux usées pour déterminer la fréquence des mutations individuelles, qui sont comparées aux variantes connues pour déterminer l'abondance de ces variantes. L'abondance est estimée à l'aide de modèles linéaires sans ordonnée à l'origine et avec une covariable binaire (1 si une mutation donnée fait partie de la définition d'une variante et 0 dans le cas contraire). Les abondances doivent être des proportions valides, c'est-à-dire positives et leur somme doit être égale ou inférieure à 1. Si la régression avec contraintes contient des covariables exogènes, alors les coefficients seront biaisés. Dans ce travail, nous démontrons le biais/variance théorique et empirique des estimateurs et suggérons des techniques de sélection des covariables basées sur le LASSO, l'apprentissage automatique et les méthodes bayésiennes. Les échantillons étant collectés au fil du temps, nous étudions également les composantes temporelles, en contraignant les covariables à apparaître dans les échantillons, puis à s'éteindre, en étant présentes dans tous les échantillons intermédiaires.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais