En octobre 2020, le Groupe de biostatistique de la SSC a lancé une compétition spéciale étudiants de type étude de cas sur le thème de la COVID-19. Le but de la compétition était d’utiliser des données portant sur la COVID-19 disponibles publiquement et de créer un outil analytique ou de développer un modèle potentiellement pertinent pour les différents acteurs des agences de santé publique. Un total de 20 équipes ont soumis un rapport, provenant de 12 universités au Canada. Trois équipes gagnantes ont été sélectionnées, et huit rapports additionnels ont été choisis pour être mis de l’avant sur le site web de la SSC.
Nous sommes heureux d’annoncer ci-dessous les trois équipes gagnantes de ce concours. Nous souhaitons aussi remercier un généreux donateur, membre de la SSC, pour avoir contribué généreusement un montant de 1 000$ qui s’ajoutait au premier prix.
1er prix : (Université McGill)
Incorporation de données de mobilité dans la prédiction de la COVID-19
Dirk Douwes-Schultz et Mila Sun
Superviseurs : Alexandra Schmidt et Erica Moodie
Résumé :
La prévision des cas quotidiens de COVID-19 est essentielle pour la planification à court terme de ressources hospitalières et d'autres ressources publiques. Les données sur les téléphones portables, qui mesurent le temps que les individus passent à la maison, constituent une information potentiellement importante pour la prévision des cas de COVID-19. Les modèles de séries chronologiques endémiques-épidémiques sont des modèles auto-régressifs récemment proposés dans lesquels le nombre moyen actuel de cas est modélisé comme une moyenne pondérée du nombre de cas antérieurs multiplié par le nombre reproductif (c.-à-d. le nombre d'infections secondaires produites par individu infectieux), plus une composante endémique. Nous étendons les modèles d'épidémie-endémique pour inclure un modèle de décalage distribué pour l'effet de la mobilité sur le nombre reproductif de COVID-19. De plus, nous introduisons un schéma de pondération binomiale négative décalée pour les dénombrements passés qui est plus flexible que les schémas de pondération précédemment proposés, et effectuons une inférence dans un cadre bayésien pour incorporer l'incertitude dans les prévisions. Nos méthodes sont illustrées dans deux comtés américains : King et New York.

2ème prix : (Université Wilfried-Laurier)
Détecteur de fausses nouvelles concernant la COVID-19
Youjia Zhang, Mohsen Bahremani, Rini Perencsik et Daniel Berezovski
Superviseur : Sunny Wang
Résumé :
Le nombre croissant de cas de maladie à coronavirus 2019 (COVID-19) a causé une prolifération de désinformation sur la COVID-19. Cette désinformation rend difficile l’identification des sources de nouvelles fiables, ce qui entraine des protestations contre les mesures gouvernementales pour contrôler le virus, des troubles sociaux et même la mort. Pour aider à réduire la propagation de désinformation, nous avons construit et évalué une variété de modèles d’apprentissage automatique pour prédire la fiabilité des nouvelles sur la COVID-19. Nous avons combiné des données de deux sources, y compris des articles de presse et des publications sur des sites Web des établissements officiels. Enfin, nous avons présenté un ensemble des méthodes qui obtient une valeur AUC (Area Under the Curve—surface sous la courbe) de 0,97 et un score F1 de 0,92. En outre, nous avons créé un site Web où les lecteurs peuvent interagir avec le modèle : www.modellingcomp.com.

3ème prix : (HEC Montréal)
Outils de classification sémantique en recherche documentaire
Gabriel Boulanger-Theberge et Simon Tye-Giguère
Superviseur : Laurent Charlin
Résumé :
Le contexte de pandémie actuel a pour conséquence la production d’un volume colossal de travail par la communauté scientifique et ce, dans un large éventail de domaines du savoir. La quantité de publication qui en résulte est tout aussi importante, et leur consultation représente un défi pour les décideurs publics. Notre ambition dans ce projet fut de construire un outil de recherche exploitant davantage la sémantique pour permettre à un utilisateur d’identifier, parmi un large corpus scientifique, les articles correspondants à un thème spécifique. Dans ce contexte, nous avons développé un outil de recherche sur base sémantique exploitant deux algorithmes de topic modeling, soit le Latent Dirichlet Allocation (LDA) et le K-Means. À partir d’un groupe de mots entré par un utilisateur, notre outil retourne les articles scientifiques ayant la sémantique la plus rapprochée de ce groupe de mots. Un paramètre permet de rendre plus généraux ou plus spécifiques les thèmes sur la base desquels la recherche est effectuée. Finalement, l’outil permet de générer des recommandations de nouveaux articles aux utilisateurs en tenant compte de leurs thématiques de préférence.
