Hao Yu, Université de Western Ontario
Aujourd’hui, la simulation Monte Carlo occupe une place essentielle dans les recherches, qu’il s’agisse de problèmes de probabilité ou de statistique. Or la simulation d’un modèle stochastique complexe ou l’analyse de gros volumes de données requiert une énorme puissance de calcul. Même si les progrès en puissance et algorithmes de calcul permettent de réduire ce temps de calcul, certaines tâches prennent encore des semaines ou des mois à compléter. Mais la majorité de ces problèmes peuvent être résolus par informatique distribuée ou informatique parallèle, une technique qui permet de découper un gros calcul en une multitude de petites tâches qui peuvent être exécutées simultanément sur de multiples nœuds ou processeurs.
Dans cet atelier, nous explorerons le traitement parallèle sous R. Nous introduirons divers progiciels parallèles performants sous R, dont les progiciels par défaut et Rmpi. Le progiciel parallèle est bien adapté à un problème de calcul de petite ou moyenne échelle sur un ordinateur de bureau ou portatif unique. Cependant, pour les problèmes à plus large échelle, il faut utiliser les progiciels Rmpi ou similaires. Rmpi est un wrapper pour MPI (Message Passing Interface), le standard de facto de l’informatique parallèle. Avec Rmpi, il est possible de réduire le temps simulation ou de calcul de six mois à quelques jours sur une grappe comme SHARCNET.
L’atelier couvrira les questions suivantes :
- Qu’est-ce que le traitement parallèle et pourquoi est-ce si utile en calcul statistique?
- Comment configurer ou utiliser un ordinateur/groupe parallèle
- Quelques progiciels R parallèles
- Comment utiliser des fonctions parallèles pour effectuer des tâches dites « embarrassingly parallel ».
- Programmation avancée via des exemples de simulation stochastique.