Il me fait plaisir de vous présenter le numéro de juin 2023 de La revue canadienne de statistique, qui contient 15 articles. Ce numéro est déjà disponible en ligne sur le site de la revue.
À l’ère numérique, les données sont abondantes et des sources d’information complémentaires sont souvent faciles d’accès. Les quatre premiers articles de ce numéro abordent certains des défis statistiques qui en découlent. Han, Taylor et Mukherjee [1] font appel à la vraisemblance empirique pour améliorer la prévision dans les modèles de régression individuels en incorporant des données provenant de calculateurs de risque qui, bien que généralement riches en informations issues d’études antérieures, sont souvent des boîtes noires avares de détails sur les modèles sous-jacents. Liu et Li [2] étudient le cas où des données massives sont stockées sur plusieurs machines et les calculs doivent être distribués. Ils construisent deux estimateurs en combinant des méthodes de vraisemblance empirique par la stratégie « diviser pour régner ». Su, Yin, Zhang et Zhao [3] s’intéressent aux données de survie massives censurées lorsque les postulats du modèle des risques proportionnels de Cox sont violés. Ils s’appuient eux aussi sur l’idée de diviser pour régner : une fois le modèle de temps de défaillance accéléré ajusté à chaque sous-échantillon, les estimateurs résultants sont intégrés grâce à une fonction de perte des moindres carrés pondérés approximative et à un LASSO adaptatif. Quant à Shao, Song et Zhou [4], ils abordent le problème de réduction du volume de données massives. Leurs résultats théoriques et certains critères d’optimalité du devis expérimental leur permettent de développer un algorithme d’extraction du sous-échantillon le plus informatif dans le cadre de la régression quantile.
Le numéro de juin présente en outre plusieurs contributions à l’inférence causale. Pashley et Bind [5] se penchent sur le problème des comparaisons multiples de traitements lorsqu’un plan factoriel complet est irréalisable ou que certaines combinaisons de traitements sont absentes. Ils montrent comment concevoir et analyser des plans factoriels fractionnaires et incomplets en s’appuyant sur la notion de résultat potentiel. L’article de Jiang, Wallace et Thompson [6] porte sur la médecine de précision, dont l’objectif est d’adapter les plans de traitement aux caractéristiques individuelles des patients. En s’appuyant sur une fonction de propension de réseau, ils développent une estimation dynamique du régime de soin qui s’avère doublement robuste même en présence d’interférence provenant, par exemple, de liens dans les réseaux sociaux. Quant à Manuel, Sinha et Wang [7], ils considèrent des données de cohorte avec une exposition multi-catégorie mal classifiée et une réponse binaire en l’absence de données de validation. Ils utilisent des variables instrumentales pour réduire le biais dû à la mauvaise classification et formulent des conditions suffisantes pour l’identification des paramètres dans le modèle logistique. Enfin, Dai, Shen et Stern [8] proposent un test non paramétrique de l’hétérogénéité de l’effet du traitement dans les études observationnelles. Leur méthode ne requiert aucune hypothèse paramétrique sur les résultats et utilise la pondération du score de propension pour tenir compte de facteurs de confusion potentiels.
Les données fonctionnelles sont au cœur des travaux de Ma, Liu, Xu et Yang [9], qui visent à quantifier l’effet de prédicteurs fonctionnels en dimension infinie et de covariables scalaires en dimension finie sur une réponse scalaire dans des contextes où cet effet peut varier entre les sous-groupes d’une population hétérogène. Leur méthode identifie automatiquement les sous-groupes et estime les paramètres du modèle de régression linéaire fonctionnelle partielle résultant avec des moyennes spécifiques aux sous-groupes.
La précision de la prévision d’une caractéristique spécifique à un sujet peut être considérablement améliorée si l’on peut identifier la classe à laquelle il appartient et exploiter les informations afférentes. Ma et Jiang [10] étendent la prévision des modèles mixtes classifiés aux modèles mixtes linéaires généralisés grâce à une nouvelle stratégie et obtiennent des résultats de convergence tant en termes de prévision que d’appariement des classes.
Trois articles s’attaquent à des problèmes en haute dimension. Wang, Liu, Zhang et Liu, au nom de l’Alzheimer’s Disease Neuroimaging Initiative [11], développent une méthode pour estimer le nombre et l’emplacement des points de rupture des coefficients de régression d’un modèle linéaire généralisé à haute dimension. Zheng, Wan et Zhou [12] proposent une procédure de réduction de la dimension suffisante dans un système d’équations d’estimation avec un grand nombre de covariables lorsqu’il y a plus de conditions de moments que de paramètres inconnus et que les variables réponses sont manquantes au hasard. La méthodologie des sous-ensembles admissibles epsilon, ancrée dans l’inférence fiduciaire généralisée, a été employée avec succès pour la sélection de modèle dans des contextes de régression à haute dimension. Dans leur article en libre accès, Williams, Xie et Hannig [14] étendent cette approche aux modèles vectoriels autorégressifs à haute dimension et montrent la convergence de la sélection graphique forte et par paires.
Cholaquidis, Fraiman, Gamboa et Moreno [13] étudient une généralisation de la profondeur lentille à tout espace métrique et étudient les propriétés asymptotiques de sa version empirique. Ils en proposent aussi une version pondérée pour les variétés riemanniennes et illustrent l’emploi du vote par profondeur pour la reconnaissance de formes d’arbres phylogénétiques.
Dans le dernier article du numéro, qui porte sur le thème des valeurs extrêmes, Stupfler et Usseglio-Carleve [15] construisent des estimateurs composites à biais réduit pour deux mesures de risque très populaires, les quantiles et les expectiles, en les intégrant dans un cadre Lp-quantile.
Je vous souhaite d’inspirantes lectures,
Johanna G. Nešlehová
Rédactrice en chef, La revue canadienne de statistique
Table des matières du numéro de juin 2023 de La revue canadienne de statistique
- Integrating information from existing risk prediction models with no model details by Peisong Han, Jeremy M. G. Taylor, and Bhramar Mukherjee
- Distributed estimation with empirical likelihood by Qianqian Liu and Zhouping Li
- Divide and conquer for accelerated failure time model with massive time-to-event data by Wen Su, Guosheng Yin, Jing Zhang, and Xingqiu Zhao
- Optimal subsampling for large-sample quantile regression with massive data by Li Shao, Shanshan Song, and Yong Zhou
- Causal inference for multiple treatments using fractional factorial designs by Nicole E. Pashley and Marie-Abèle C. Bind
- Dynamic treatment regimes with interference by Cong Jiang, Michael P. Wallace, and Mary E. Thompson
- Reducing bias due to misclassified exposures using instrumental variables by Christopher Manuel, Samiran Sinha, and Suojin Wang
- Nonparametric tests for treatment effect heterogeneity in observational studies by Maozhu Dai, Weining Shen, and Hal S. Stern
- Subgroup analysis for functional partial linear regression model by Haiqiang Ma, Chao Liu, Sheng Xu, and Jin Yang
- Classified generalized linear mixed model prediction incorporating pseudo-prior information by Haiqiang Ma and Jiming Jiang
- Efficient multiple change point detection for high-dimensional generalized linear models by Xianru Wang, Bin Liu, Xinsheng Zhang, Yufeng Liu, for the Alzheimer's Disease Neuroimaging Initiative
- Missing data analysis with sufficient dimension reduction by Siming Zheng, Alan T. K. Wan, and Yong Zhou
- Weighted lens depth: Some applications to supervised classification by Alejandro Cholaquidis, Ricardo Fraiman, Fabrice Gamboa, and Leonardo Moreno
- The EAS approach for graphical selection consistency in vector autoregression models by Jonathan P. Williams, Yuying Xie, and Jan Hannig
- Composite bias-reduced Lp-quantile-based estimators of extreme quantiles and expectiles by Gilles Stupfler and Antoine Usseglio-Carleve