2016-Inférence et prévisions à partir de données distribuées


Inférence et prévisions à partir de données distribuées 
Responsable et président: Jean-Francois Plante (HEC Montreal) 
[PDF]

DOINA CARAGEA, Kansas State University
Classificateurs d'adaptation de domaines d'apprentissage à partir de sources multiples distribuées  [PDF]
 
Pour plusieurs problèmes d'inférence et de classification, la quantité de données étiquetées disponible est limitée, ce qui rend impossible d'apprendre des classificateurs supervisés précis. Pour remédier à ce problème, nous proposons une approche d'adaptation de domaine qui tire profit de données étiquetées provenant de multiples domaines sources distribués pour apprendre les classificateurs pour un domaine cible. Notre approche, qui se base sur la maximisation de l'espérance et sur le classificateur naïf bayésien, identifie l'information qui doit être extraite des domaines sources et transférée au domaine cible. Cette information inclut les caractéristiques et les cas pertinents de chaque source, les statistiques exhaustives à être transférées à la cible, ainsi que des pondérations importantes de chaque source. Nous évaluons notre approche dans le contexte de la gestion et de la réponse en cas de catastrophe sur la base de données de microblogging. 
 
GEORGE OSTROUCHOV, Oak Ridge National Laboratory & University of Tennessee
Calcul statistique avec R sur des plateformes distribuées et multicœur  [PDF]
 
Le projet de programmation avec mégadonnées dans le logiciel R (voir pbdr.org) vise à enseigner et à simplifier la programmation parallèle dans R ainsi qu'à exploiter les bibliothèques numériques pertinentes pour les calculs statistiques. Dans cet exposé, je donnerai un aperçu des plateformes de parallélisme et je présenterai le projet de programmation avec des mégadonnées dans R. Je donnerai deux exemples : l'un où le parallélisme est effectué directement dans R et l'autre où les bibliothèques numériques d'algèbre linéaire sont utilisées. 
 
RUIBIN XI, Peking University
Agrégation statistique pour l'analyse de données volumineuses  [PDF]
 
Les données volumineuses offrent de nouvelles possibilités pour de nombreux domaines. Une analyse en profondeur de ces données pourrait révéler un phénomène important inconnu. De plus, les données volumineuses présentent également des défis statistiques et informatiques. Dans cet exposé, je parlerai de la technique d'agrégation que nous avons mise au point au cours des dernières années pour effectuer une analyse statistique dans un contexte de données volumineuses. Cette technique est basée sur la stratégie de diviser pour régner. Nous divisons tout d'abord les données volumineuses en sous-ensembles plus petits. Ensuite, nous effectuons une analyse statistique de chaque sous-ensemble et nous agrégeons les résultats de l'analyse pour chaque sous-ensemble afin d'obtenir une solution du jeu entier des données. Le calcul distribué des estimateurs qui en résultent est direct. Nous démontrons également que les nouveaux estimateurs sont statistiquement équivalents à l'estimateur original.