Titre : Meilleures pratiques en matière de reproductibilité informatique
Présentateur : Jean Baptiste Poline, McGill University; jean-baptiste.poline@mcgill.ca
Date : dimanche 6 juin 2021
Heure : 11h00 - 17h00 (HAE)
Description :
On craint de plus en plus que la recherche informatique soit difficile à reproduire et à réutiliser. Les versions de logiciels changent, les codes sont difficiles à exécuter dans un nouvel environnement informatique, les données sont modifiées mais non versionnées. Cet atelier décrira les meilleurs outils et pratiques utilisés pour améliorer la reproductibilité de la recherche, avec un accent particulier sur les aspects informatiques. Nous montrerons également que ces outils contribuent à l'efficacité de la recherche.
Les participants qui souhaitent participer aux exercices pratiques doivent apporter leur propre ordinateur portable et suivre les instructions d'installation de [neurohackademy] (https://neurohackademy.org/setup/) pour installer git.
(Les horaires ci-dessous supposent un début à 8h30. Les heures seront modifiées en conséquence pour une heure de début différente).
- Introduction aux meilleures pratiques en matière de reproductibilité informatique (8:30)
- Pourquoi et comment versionner et collaborer sur le code (9:00)
- Au cours de cette conférence, nous présenterons les concepts de git comme système de suivi du contenu, et de GitHub, la plateforme de « codage social ». Nous présenterons la liste des meilleures pratiques de codage et expliquerons comment ces meilleures pratiques favorisent une science plus reproductible.
- Introduction aux conteneurs (10:00)
- Nous présenterons la technologie des conteneurs et la comparerons à d'autres systèmes d'encapsulation des environnements informatiques, tels que les machines virtuelles ou les environnements virtuels. Nous montrerons quand cette technologie est préconisée et quels sont les pièges potentiels.
- Versionnement des données (10:30)
- Dans cette leçon, nous introduisons le concept de versionnement des données et de vérification de l'intégrité. Nous présenterons DataLad, un logiciel capable de suivre les versions des données via git.
- écosystème python pour la statistique/l’apprentissage machine (11:00)
- Alors que R est le langage le plus utilisé par les statisticiens, avec une pléthore de paquets, Python propose un écosystème intéressant pour le traitement des données et a récemment développé des bibliothèques de premier ordre pour l'apprentissage machine. Nous présenterons cet écosystème avec ses capacités et ses limites.
- Exercice de version de code (12:00)
- Au cours de cette session pratique, nous montrerons comment utiliser git et GitHub pour versionner du code et collaborer sur un projet logiciel.