Numéro spécial sur les mégadonnées et les sciences statistiques : introduction par le rédacteur invité

CJS

L’ère des mégadonnées est bien entamée. Elle apporte d’un côté des défis pour la statistique et les statisticiens et, d’un autre côté, de nombreuses opportunités pour les scientifiques de cette discipline. Comme statisticiens, nous sommes mis au défi de faire preuve de leadership dans un domaine qui fut traditionnellement le nôtre : les données. Les mégadonnées offrent d’ailleurs de nombreuses opportunités pour faire avancer la science, la technologie et l’ingénierie, tout en montrant que les idées de base de notre discipline demeurent pertinentes, voire absolument essentielles, dans cette nouvelle ère.

Dans les discussions à propos du sens des mégadonnées, les termes « statisticien » et « scientifique des données » sont largement utilisés à l’extérieur de la communauté à laquelle j’appartiens, et réfèrent à un groupe beaucoup plus vaste que celle-ci. Toutes les disciplines ont des données, ce qui engendre des scientifiques des données spécifiques à chacune d’elles. Des techniques et un jargon se développent indépendamment du travail fait dans d’autres domaines. En particulier pour le lectorat de La revue canadienne de statistique, il importe de souligner que ces techniques ignorent souvent le travail plus général et inclusif de statisticiens. Nous comprenons bien que les idées fondamentales de nos techniques d’analyse de données s’appliquent à de nombreux contextes et que les lec ̧ons apprises dans une situation ont également une grande valeur dans d’autres contextes issus de disciplines différentes.

Ce numéro de La revue canadienne de statistique est donc dédié aux mégadonnées et aux sciences statistiques afin de mettre en valeur l’importance de la pensée statistique classique dans l’approche de problèmes nouveaux de grande échelle, mais aussi de souligner les défis que doit relever la communauté de pratique statistique. Dans ce numéro, vous verrez que les idées classiques de statistique jouent un rôle crucial pour que l’analyse de données demeure honnête, efficace et efficiente. Vous verrez des opportunités de construire de nouvelle méthodes statistiques à partir de vieilles idées statistiques utilisées dans un large spectre d’applications. Vous verrez que les ressources massives de calcul n’éliminent pas le besoin d’une modélisation soignée, d’une évaluation honnête de l’incertitude, ou de la conception d’un bon devis expérimental.

Ce numéro comporte à la fois des articles de synthèse et des contributions à la méthodologie. Certains adoptent un approche bayésienne, d’autres fréquentiste, et certains un mélange des deux. Les sujets portent notamment sur la planification d’expérience, la statistique officielle, la génétique moderne, les méthodes en ligne, les méthodes de Monte Carlo par chaînes de Markov, les données fonctionnelles, les modèles graphiques, la réduction de la dimension, les méthodes locales, la sélection de modèle, l’inférence post-sélection, la théorie limite en haute dimension, et bien d’autres encore. Pour le reste de cette introduction, je veux mettre en lumière quelques-unes de ces idées, les lier aux défis que j’ai mentionnés, et peut-être pointer quelques éléments où la communauté a des obligations particulières.

Mary Thompson examine les conséquences des mégadonnées sur la statistique officielle dans un article de synthèse à large portée. Elle décrit différentes fac ̧ons qui changeront les méthodes de travail d’agences comme Statistique Canada, y compris notre habileté à collecter plus de données de plus grande complexité et notre capacité à ajuster des modèles beaucoup plus gros. Par exemple, certains concepts traditionnels sont davantage définis par la fac ̧on dont ils sont mesurés que par l’idée sous-jacente. L’accès à des sources de données plus grandes et mesurées en temps plus opportun peux modifier cet équilibre. Autre exemple, la plupart des agences statistiques travaillent ardemment à compléter ou à remplacer les données d’enquête traditionnelles par des données administratives et des paradonnées récoltées automatiquement lors des collectes informatiques. Les statisticiens devront gérer les défis de qualité des données administratives, notamment ceux émergeant du fait que ces données ne sont pas collectées pour remplir les besoins de l’agence. Thompson décrit avec soin les conséquences de la collecte de données en continu et discute l’usage de la visualisation en statistique officielle avant de conclure avec une importante liste de sujets de recherche nécessitant l’attention des statisticiens. Les sujets démontrent clairement que les mégadonnées ont au moins un impact positif pour les statisticiens : plusieurs problèmes émergents d’importance relèvent directement de notre domaine.

Nous sommes au beau milieu d’une révolution biologique dans laquelle le séquenc ̧age des gènes et les techniques s’y rattachant ont transformé la fac ̧on dont nous tentons de comprendre les maladies et d’autres processus biologiques. Shelley Bull, Irene Andrulis et Andrew Paterson considèrent l’épidémiologie moléculaire et génétique en utilisant deux projets multidisciplinaires (l’un portant sur le cancer du sein et l’autre, sur le diabète) pour illustrer les interactions entre une multitude d’études et de techniques, tant au niveau expérimental que statistique, en vue d’améliorer la compréhension d’une maladie donnée. Les auteurs démontrent que les idées de statistique classique ont un rôle à jouer lorsqu’elles sont adaptées à des situations plus complexes. Ils mettent également en lumière le besoin d’idées statistiques afin de gérer les erreurs de spécification d’un modèle, les espaces de paramètres multidimensionnels, et les conséquences de la sélection de modèle sur l’inférence.

Une approche possible pour ce dernier problème est illustrée par Jonathan Taylor et Robert Tibshirani qui examinent l’inférence post-sélection pour les modèles de vraisemblance pénalisée. Dans le cas gaussien, il existe maintenant une riche littérature par Taylor, Tibshirani et des co- auteurs montrant comment obtenir une inférence conditionnelle exacte. Cette approche fait concurrence à la théorie limite en haute dimension fondée sur les techniques modernes de processus empiriques qui offre une solution non conditionnelle mais approximative. Dans leur article, Taylor et Tibshirani généralisent ces idées d’inférence conditionnelle aux contextes généraux de vraisemblance avec des pénalités de type LASSO.

La théorie limite en haute dimension se présente sous différentes formes. L’une d’entre elles apparaît dans la contribution de Dennis Cook et Liliana Forzani. Le but consiste ici à réduire la dimension à l’aide de la régression aux moindres carrés partiels. L’article illustre le point de vue récemment établi selon lequel on étudie une séquence de modèles de dimension variable dont les vrais paramètres varient aussi conséquemment. Des hypothèses sont évidemment nécessaires à propos de l’espace des paramètres, et les approximations qui en découlent peuvent être bonnes seulement dans certaines zones de l’espace paramétrique. Dans le contexte des mégadonnées, il s’agit de la seule voie possible.

La section technique de Cook et Forzani est précédée d’une introduction qui mérite d’être lue par le plus grand nombre. Elle présente une importante liste de défis pour notre communauté et met en lumière quelques perspectives très négatives à l’égard de notre communauté provenant d’autres domaines. Nous devons faire face à ces critiques et procéder à une forme d’introspection afin d’en comprendre les sources.

La réduction de la dimension est également une composante de l’article de Bing Li qui dévoile la vision d’un paradigme unifié pour l’analyse statistique des mégadonnées. En étudiant une multitude de situations, y compris les contextes multivarié et fonctionnel, avec des modèles linéaires ou non, Li explore le rôle des opérateurs linéaires dans l’analyse statistique. Cinq opérateurs particuliers sur les espaces de Hilbert sont étudiés attentivement, et les idées sont illustrées à travers le problème de réduction exhaustive de la dimension. Une discussion structurée portant sur l’analyse de données fonctionnelles d’un côté, et l’apprentissage par noyau de l’autre, constitue un élément important de l’article.

L’effervescence d’idées en analyse de données est nettement mise en évidence par le jargon changeant de notre discipline. En plus de l’évolution du titre de la profession déjà discutée, les techniques également changent de nom et le vieux jargon statistique est souvent remplacé ou modifié par la nomenclature développée en apprentissage machine. Rui Nie, Douglas Wiens et Zhichun Zhai étudient l’apprentissage actif et explorent la relation entre cette idée et le domaine statistique traditionnel de planification d’expériences optimales. Ils démontrent clairement que les idées de statistique classique demeurent importantes dans le contexte des mégadonnées. Leur objectif est la régression : modéliser l’effet de prédicteurs sur la réponse. Dans cet article, les prédicteurs utilisés pour l’apprentissage proviennent d’une densité différente de ceux de l’échantillon de test. Le modèle ajusté sur la base des données d’apprentissage devra prédire la réponse pour les valeurs des prédicteurs encore jamais observées. L’article porte sur les conséquences du biais induit par la mauvaise spécification du modèle paramétrique et montre comment les idées permettant des devis optimaux peuvent permettre de contrôler le biais. Je crois que cet article souligne un défi crucial de l’ère des mégadonnées. Historiquement, il était raisonnable de supposer que le biais était petit par rapport à la variabilité échantillonnale. Toutefois, les données massives rendent la variabilité négligeable, alors que le biais peut être substantiel, certainement d’un point de vue comparatif, voire nullement négligeable selon moi.

Les statisticiens ont compris depuis longtemps que le biais est un concept relatif à une structure de données et un modèle. Dans un contexte d’échantillonnage indépendant et identiquement distribué, l’ajout d’un prédicteur à une régression change le modèle et les paramètres. Chun Wang, Ming-Hui Chen, Jing Wu, Jun Yan, Yuping Zhang et Elizabeth Schifano étudient un problème d’inférence en ligne. Ils considèrent un flux de données dont le nombre de prédicteurs disponibles peut crôıtre de temps à autre.Avec les nouveaux prédicteurs en main, on veut utiliser la nouvelle information sans perdre celle déjà acquise avec les données antérieures. La cible inférentielle est dynamique, mais l’approche montre ici que les idées de statistique classique présentent un fort potentiel pour améliorer l’efficacité avec laquelle les données sont utilisées dans un contexte dynamique.

La rivalité entre les approches statistiques bayésienne et fréquentiste ne semble pas avoir été scellée par l’avènement des mégadonnées. D’un côté, la régression en haute dimension et la modélisation des réseaux semblent avoir considérablement attiré l’attention par des approches fréquentistes. D’un autre côté, nombreux sont ceux qui avancent que seules les méthodes bayésiennes peuvent réellement fonctionner dans un contexte complexe. Il semble toutefois possible qu’un consensus pragmatique émerge où plusieurs sont prêts à adopter l’approche la plus susceptible de résoudre le problème à l’étude.

Le côté bayésien de ce numéro compte un article par Reihaneh Entezari, Radu Craiu et Jeffrey Rosenthal qui porte sur les méthodes de Monte Carlo par chaînes de Markov dans un contexte où les calculs doivent être parallélisés pour être faisables. Les auteurs montrent comment générer des chaînes sur plusieurs portions des données en gonflant la vraisemblance pour chaque morceau. L’ensemble de lois a posteriori qui en résulte est combiné afin d’en obtenir une seule. Un exemple binomial montre que le partitionnement minutieux du jeu de données peut parfois rendre l’approximation effectivement très bonne, et une exemple de régression bayésienne montre que la méthode apporte une amélioration appréciable par rapport à des efforts antérieurs de partitionnement. Finalement, la méthode est appliquée aux arbres de régression bayésiens, un outil central pour les mégadonnées.

L’article de Qiong Li, Xin Gao et Hélène Massam portant sur les « modèles de graphiques gaussiens colorés » offre une autre perspective bayésienne qui met en lumière les liens entre les deux écoles d’inférence. Ici, nous avons un échantillon normal multivarié de haute dimension et sommes intéressés à la matrice de précision de cette loi normale multivariée. Les adjectifs « colorés » et « graphiques » décrivent des structures particulières imposées à cette matrice. La haute dimension rend les calculs ardus. Les auteures présentent une méthode d’analyse locale qui utilise la structure graphique pour distribuer le problème de calcul. Elles fournissent également une analyse fréquentiste du comportement des estimateurs bayésiens qui en résultent, dans le cas où le nombre de dimensions est fixe, mais aussi sous un régime ou le nombre de dimensions augmente.

J’estime que ce numéro de La revue canadienne de statistique met en lumière le type de contributions que les statisticiens apportent pour les mégadonnées. Nous montrons aux autres que les idées statistiques demeurent pertinentes face à des données massives, complexes et dynamiques. Toutefois, nous constatons également qu’il est impératif de progresser rapidement afin d’adapter ces idées avant que des techniques plus ad hoc proposées par d’autres sciences occupent tout l’espace.

Richard Lockhart, (2018) 'Special issue on Big Data and the Statistical Sciences: Guest Editor's Introduction', La revue canadienne de statistique, 46(1), March 2018, doi:10.1002/cjs.11350

Samedi, 6 janvier, 2018

Liaison Newsletter: