Atelier du Groupe de biostatistique 2020

Titre: Reproducibility challenges in data analysis with examples in brain imaging.
Facilitateur: JB Poline (McGill University)
Durée: journée complète (9h00-16h00).

Description de l'atelier:

La communauté scientifique dans son ensemble, et en particulier la communauté des sciences de la vie, reconnaît de plus en plus qu’un grand nombre des résultats publiés sont difficilement reproductibles [Collins et Tabak, Nature, 2014]. Le problème semble être causé par une variété de facteurs, allant du technique au sociologique. Dans cet atelier, nous discuterons dans un premier temps de la reproductibilité scientifique, avec des exemples des sciences de la vie et des illustrations spécifiques tirées du domaine de l’imagerie cérébrale. Nous vous initierons ensuite à quelques outils de science ouverte pratiques qui devraient favoriser le développement d’une recherche plus reproductible du point de vue logiciel et de la gestion des données. Nous vous montrerons comment la communauté statistique peut utiliser ces outils et nous vous proposerons des problèmes statistiques spécifiques (tests d’associations ou de prévisions). Les exemples et les exercices pratiques seront présentés à l’aide de Python sur des données d’imagerie cérébrale. Les participants devront apporter leur propre ordinateur portable. Nous fournirons les instructions pour l’installation des logiciels requis.


Programme
9h30-10h30 Introduction à la reproductibilité (1h)

  • Conférence sur les causes de non-reproductibilité en science et solutions potentielles

10h30- 12h30: Outils pour une science reproductible : logiciels (2h)

  • Introduction au contrôle des versions
  • Contrôle des versions local et distribué (Git, interactif)
  • Infrastructures Web collaboratives pour Git (Github, interactif)

12h30 - 13h30: dîner
13h30- 14h45: Outils pratiques pour une science reproductible : gestion de données

  • Introduction : Enjeux courants en gestion de données
  • Versions de données : introduction de git-annex et git-lfs (interactif)
  • Introduction aux conteneurs
  • Traitement de données sous Datalad (interactif)

14h45 - 15h00: pause café
15h00- 16h30: Reproductibilité statistique : défis

  • Dans cette session, nous proposons des défis de reproductibilité statistique spécifiques pour illustrer certains problèmes courants auxquels sont confrontés les statisticiens et scientifiques de données lors de l’élaboration d’une solution à une question biologique. Il s’agira d’une session interactive sous Python.


Référence
Collins, Francis S., and Lawrence Tabak. 2014. “NIH Plans to Enhance Reproducibility.” Nature 505: 612–13.