Le coin de la rédactrice en chef de la RCS

cjs logo

Le jubilé du 50e anniversaire de La revue canadienne de statistique a pris fin sur un très beau numéro spécial en libre accès préparé par Bruce Smith, Wendy Lou, Grace Yi et Bruno Rémillard afin de mettre en valeur le travail d’éminents statisticiens canadiens.

En 2023, j’espère tenir ma résolution du nouvel an de renouer avec la tradition de diffuser dans Liaison un condensé des numéros de la RCS. Celui de mars est en cours de production au moment d’écrire ces lignes. Il inclura 17 articles déjà disponibles en ligne dans Early View.

Ce numéro s’ouvre sur une série d’articles ayant pour thème la régression. Pour tester des hypothèses sur les coefficients de modèles partiellement linéaires en haute dimension, Zhao, Lin et Zhang [1] adoptent une approche par U-statistique permettant d’éviter l’estimation des coefficients. Leur technique ne nécessite pas que les modèles soient clairsemés. Adoptant le point de vue de la théorie de la décision, Miyawaki et MacEachern [2] abordent pour leur part le problème classique de la sélection de variables en associant un coût aux prédicteurs. Ils considèrent deux approches bayésiennes incorporant l’incertitude du modèle et des paramètres.

En présence d’erreurs à queue lourde ou de valeurs aberrantes dans les variables exogènes, Cao, Kang et Wang [3] proposent l’emploi d’une régression quantile composite pondérée au moyen de composantes principales. Leur méthode d’estimation exploite la pénalité SCAD-L2 et bénéficie de la propriété d’oracle même si la variance des erreurs est infinie. Advenant le cas fréquent d’erreurs hétéroscédastiques, Burak et Kashlak [4] expliquent comment bâtir des régions de confiance pour les paramètres du modèle grâce à un bootstrap paramétrique dit analytique; leur procédure est beaucoup plus efficace que le bootstrap paramétrique tout en ayant un taux de couverture analogue. Quant à Zhang, Zhang et Ma [9], ils s’intéressent à la régression de Poisson en présence de covariables mesurées avec erreur et de variables instrumentales. Pour prendre en compte divers instruments potentiels, ils pondèrent des modèles de façon à minimiser le risque asymptotique de prévision.

Plusieurs articles du numéro contribuent à l’analyse de données complexes. Madrid-Padilla et Chen [5] font des liens entre la régression non paramétrique et l’estimation par graphon, ce qui les conduit à une nouvelle procédure d’estimation pour les réseaux binaires dans lesquels la présence ou l’absence d’une arête est modélisée par une variable de Bernoulli dont la probabilité de succès dépend d’un graphon. Motivés par les données de santé en continu susceptibles d’arriver en masse et à haut débit, Luo et Song [6] proposent un filtre de Kalman et un outil d’estimation en ligne pour les modèles mixtes linéaires à espace d’état de façon à incorporer l’hétérogénéité entre différents lots de données. Le défi de modéliser des données longitudinales est souvent relevé à l’aide de modèles de Markov cachés à temps continu qui représentent les trajectoires latentes dont émanent les données. Luo, Stephens et Buckeridge [7] élaborent une modélisation bayésienne visant à regrouper ces trajectoires latentes sans connaître a priori le nombre de grappes. Les méthodes de regroupement sont aussi le sujet de l’article de Hu, Yang, Xue et Dey [8], bien que dans le contexte totalement différent des sports. Ils proposent une régression bayésienne de Poisson à surplus de zéros avec des coefficients groupés qui révèle des différences entre les pratiques de tir des joueurs de basketball.

Trois articles traitent de problèmes survenant dans les essais cliniques. Dans le cadre d’un modèle linéaire généralisé, Gavanji, Jiang et Chen [10] utilisent une approche de vraisemblance pénalisée pour tester la présence d’un seuil de biomarqueur qui diviserait les participants à un essai clinique en deux groupes selon leur réponse au traitement. Feng, Prasangika et Zuo [11] s’appuient sur des techniques de vraisemblance partielle et linéaire locale pour développer l’inférence dans le cadre d’un modèle de risques additifs avec des coefficients fluctuant dans le temps pour des données d’état actuel multivariées sujettes à censure informative. Par ailleurs, Sun, Heng, Lee et Gilbert [12] modélisent les fonctions d’incidence cumulative conditionnelle des infections au VIH-1 en l’absence de certaines covariables en traitant les différents types d’infection comme des risques concurrents. À cette fin, ils développent l’estimation et l’inférence dans des modèles de régression semiparamétriques généralisés en s’appuyant sur une approche augmentée doublement robuste pondérant les cas complets par l’inverse de leur probabilité.

Certains articles du numéro de mars portent en outre sur les plans d’expérience et les méthodes d’enquête. Abousaleh et Zhou [13] élaborent une nouvelle approche de construction de plans optimaux minimax pour des modèles de régression à erreurs hétéroscédastiques robustes aux mauvaises spécifications de la variance des erreurs. Ils fournissent aussi un algorithme pour la recherche de tels plans dans des espaces discrets. Krieger, Azriel et Kapelner [14] décrivent un plan expérimental permettant de partager les participants à un essai clinique en deux groupes afin de minimiser l’erreur d’estimation de l’effet de traitement. Leur plan est à la fois robuste aux erreurs de spécification du modèles de réponse et à un déséquilibre marqué des covariables.

Les plans uniformes sont fréquemment employés pour remplir l’espace, entre autres lors de l’exploration de systèmes complexes au moyen d’essais réels ou informatiques. Liu, Wang et Sun [15] étudient le critère de projection uniforme aux fins de minimiser la divergence moyenne de toutes les projections en deux dimensions d’un plan. L’intégration de données d’enquête étant primordiale pour améliorer l’élaboration des politiques, Erciulescu, Opsomer et Schneider [16] proposent un modèle bayésien hiérarchique multiniveau permettant d’atteindre cet objectif lorsque l’estimation de deux variables dépendantes est intéressante à des niveaux granulaires mais que les deux variables ne sont disponibles que dans la plus petite de deux enquêtes.

Enfin, un article théorique de Wu, Yu, Yang, Ding et Wang [17] clôture le numéro. Ces auteurs montrent que sous des conditions de régularité appropriées, l’espérance de certaines fonctions d’une somme pondérée de variables aléatoires faiblement dépendantes peut être approximée par la même fonction évaluée à l’espérance.

Je vous souhaite d’inspirantes lectures,

Johanna G. Nešlehová

Rédactrice en chef, La revue canadienne de statistique

Table des matières du numéro de mars 2023 de La revue canadienne de statistique

  1. A new test for high-dimensional regression coefficients in partially linear models by Fanrong Zhao, Nan Lin, and Baoxue Zhang
  2. Economic variable selection by Koji Miyawaki and Steven N. MacEachern
  3. Doubly robust weighted composite quantile regression based on SCAD-L2 by Zhimiao Cao, Xiaoning Kang, and Mingqiu Wang
  4. Nonparametric confidence regions via the analytic wild bootstrap by Katherine L. Burak and Adam B. Kashlak
  5. Graphon estimation via nearest-neighbour algorithm and two-dimensional fused-lasso denoising by Oscar Hernan Madrid-Padilla and Yanzhen Chen
  6. Multivariate online regression analysis with heterogeneous streaming data by Lan Luo and Peter X.-K. Song
  7. Bayesian clustering for continuous-time hidden Markov models by Yu Luo, David A. Stephens, and David L. Buckeridge
  8. Zero-inflated Poisson model with clustered regression coefficients: Application to heterogeneity learning of field goal attempts of professional basketball players by Guanyu Hu, Hou-Cheng Yang, Yishu Xue, and  Dipak K. Dey
  9. A model-averaging treatment of multiple instruments in Poisson models with errors by Xiaomeng Zhang, Xinyu Zhang, and Yanyuan Ma
  10. Penalized likelihood ratio test for a biomarker threshold effect in clinical trials based on generalized linear models by Parisa Gavanji, Wenyu Jiang, and Bingshu E. Chen
  11. Regression analysis of multivariate current status data under a varying coefficients additive hazards frailty model by Yanqin Feng, K. D. Prasangika, and Guoxin Zuo
  12. Estimation of conditional cumulative incidence functions under generalized semiparametric regression models with missing covariates, with application to analysis of biomarker correlates in vaccine trials by Yanqing Sun, Fei Heng, Unkyung Lee, and Peter B. Gilbert
  13. Minimax A-, c-, and I-optimal regression designs for models with heteroscedastic errors by Hanan Abousaleh and Julie Zhou
  14. Better experimental design by hybridizing binary matching with imbalance optimization by Abba M. Krieger, David A. Azriel, and Adam Kapelner
  15. Two-dimensional projection uniformity for space-filling designs by Sixu Liu, Yaping Wang, and Fasheng Sun
  16. Statistical data integration using multilevel models to predict employee compensation by Andreea L. Erciulescu, Jean D. Opsomer, and Benjamin J. Schneider
  17. On asymptotic approximation of ratio models for weakly dependent sequences by Yi Wu, Wei Yu, Wenzhi Yang, Saisai Ding, and Xuejun Wang
Dimanche, 29 janvier, 2023

Liaison Newsletter: