Au moment où j’écris ces lignes, Clarivate vient de diffuser son palmarès annuel des revues scientifiques. Je constate avec plaisir que le facteur d’impact de la RCS a grimpé à 0,8, ce qui la place sur un pied d’égalité avec le Scandinavian Journal of Statistics ou les Annals of the Institute of Statistical Mathematics, entre autres. Bien entendu, ces chiffres ne disent pas tout, mais bien des universités s’en préoccupent et j’espère que la meilleure performance de notre revue vous encouragera à y soumettre vos travaux. Après tout, c’est la qualité des articles qu’elle publie qui fait la réputation d’une revue. Compte tenu du dynamisme et du talent de notre communauté statistique, je suis sûre que nous pouvons encore faire mieux. Si vous avez des améliorations à proposer, n’hésitez pas à me contacter.
Mon équipe éditoriale et moi œuvrons sans relâche pour rehausser votre expérience de publication avec la RCS. On commence à voir dans Early View des articles produits avec le nouveau gabarit conçu par Vincent Goulet, professeur à l’Université Laval. Notre nouvelle signature visuelle a dorénavant été intégrée aux opérations de Wiley, de sorte que les articles paraissent à nouveau en ligne sans délai. Nous remercions sincèrement tous les auteurs concernés pour leur patience pendant ce processus de transition quelque peu fastidieux.
Le numéro de juin sera donc l’avant-dernier à paraître sous l’ancienne formule. Il est déjà disponible en ligne sur le site de la revue. Il compte 14 articles, dont voici un résumé.
En ouverture, Gao et Wakefield [1] proposent un estimateur fondé sur un modèle qui, en plus d’intégrer des covariables et un lissage spatial, tient compte du devis expérimental. Leur approche, convergente tant au sens du devis que du modèle, facilite l’estimation d’indicateurs sanitaires et démographiques infranationaux pour les pays disposant de données censitaires limitées.
Les deux articles suivants concernent l’analyse de survie. Maller, Resnick et Shemehsavar [2] cherchent un moyen de déterminer si le nombre de suivis est suffisant pour détecter la présence d’individus immunisés ou guéris. Pour tester cette hypothèse, ils déterminent les lois à taille finie et asymptotique d’une statistique déjà proposée par Maller et Zhou. He, Yi et Yuan [3] modélisent des durées de vie multivariées au moyen de copules liant des modèles de transformations linéaires semi-paramétriques univariés. Grâce à une inférence par étapes fondée sur la vraisemblance, ils peuvent mesurer l’impact d’un mauvais choix de modèle sur l’estimation de l’effet des covariables.
Pang, Liu, Zhao et Zhou [4] abordent l’analyse de données longitudinales dont les réponses dépendent à la fois de l’historique et de l’issue finale. Ils proposent un modèle de régression quantile et développent une approche par équation d’estimation sans lissage pour l’inférence.
La loi normale multivariée est souvent trop simpliste en pratique. Fishbone et Mili [5] proposent donc de nouveaux estimateurs de localisation et de dispersion ajustables pour la classe plus étendue des lois elliptiques. Leur solution est robuste aux valeurs aberrantes, plus stable en regard des conditions initiales, et souvent plus efficace que les estimateurs à haut point de rupture existants.
Stringer [6] étudie les contraintes d’identification optimales dans les modèles additifs généralisés. Il montre que l’optimalité des contraintes de recentrage populaires dépend de la loi de la variable réponse et de la paramétrisation; dans les familles exponentielles naturelles avec paramétrisation canonique, par exemple, le recentrage n’est optimal que si la réponse est gaussienne.
Les erreurs de mesure et de classification de données abondent dans certaines études. Spicker, Wallace et Yi [7] étendent l’approche d’extrapolation par simulation pour éviter de postuler une loi spécifique pour l’erreur de mesure. Leur technique s’avère fiable dans de nombreux contextes, notamment lorsque le populaire modèle d’erreur de mesure additif normal est inapproprié. Pour estimer les paramètres dans les modèles d’erreur de mesure, Wang, Wang et Wang [8] élaborent une approche par variables instrumentales bayésienne. Ils déterminent l’estimateur linéaire de Bayes et démontrent sa supériorité par rapport à l’estimateur des moindres carrés à deux degrés basé sur le critère de la matrice des erreurs quadratiques moyenne. Les bases de données d’observation utilisées dans la recherche biomédicale peuvent également être sujettes aux erreurs. Lotspeich, Amorim, Shaw, Tao et Shepherd [9] proposent un approche économique en deux temps pour la validation de données qui s’appuie sur un sous-ensemble d’enregistrements. Le schéma optimal qu’ils mettent de l’avant minimise la variance de l’estimateurs à vraisemblance maximale lorsque la réponse est binaire en dépit d’une mauvaise classification de l’exposition. Ce schéma optimal est ensuite localisé au moyen d’un algorithme de recherche de grille adaptative et ses paramètres inconnus sont approximés au prix de multiples cycles de calcul.
Chen, Yuan et Qin [10] contribuent à l’inférence causale. Pour se prémunir contre d’éventuels biais lorsque les modèles de score de propension et de régression sont mal spécifiés, ils proposent de calibrer l’estimateur de la moyenne marginale par pondération inverse augmentée. Ceci permet de se prémunir contre l’influence des extrêmes de ces modèles ou une mauvaise spécification.
Liu, Liu, Li et Lin [11] s’attaquent aussi à un problème d’estimation difficile, mais dans le cadre des modèles autorégressifs spatiaux. Ils proposent une approche par équation d’estimation qui est moins exigeante en calcul que la maximisation de la vraisemblance et qui ne nécessite pas de covariables exogènes significatives, contrairement à la méthode généralisée des moments ou à celle des moindres carrés spatiaux en deux étapes.
Raïssi [12] étudie la corrélation sérielle des rendements financiers en tenant compte de l’hétéroscédascité inconditionnelle et de la probabilité variable de rendements nuls. Il dresse un parallèle entre zéros et valeurs manquantes et traite ces dernières comme des séries temporelles.
Les deux derniers articles portent sur des questions de données massives et d’apprentissage statistique. Xie, Ding, Jiang, Yan et Kong [13] combinent la régression quantile à l’intégration pondérée de modèles séquentiels pour obtenir une prédiction robuste dans les ensembles de données en très haute dimension. Une approche séquentielle permet d’implanter leur approche. Plante, Larocque et Adès [14] étudient le choix de prédicteurs en apprentissage supervisé. Le codage du modèle leur permet d’utiliser des algorithmes génétiques. Les auteurs fixent un seuil objectif pour le choix des prédicteurs qui repose sur la loi nulle des scores d’importance et introduisent une stratégie d’éradication qui s’apparente à la sélection pas-à-pas.
Je vous souhaite d’inspirantes lectures et un merveilleux été!
Johanna G. Nešlehová, rédactrice en chef, La revue canadienne de statistique
Table des matières du numéro de juin 2024 de La revue canadienne de statistique
[1] Smoothed model-assisted small area estimation of proportions, by/par Peter A. Gao & Jon Wakefield
[2] Finite sample and asymptotic distributions of a statistic for sufficient follow-up in cure models, by/par Ross Maller, Sidney Resnick & Soudabeh Shemehsavar
[3] Analysis of multivariate survival data under semiparametric copula models, by/par Wenqing He, Grace Y. Yi & Ao Yuan
[4] Joint modelling of quantile regression for longitudinal data with information observation times and a terminal event, by/par Weicai Pang, Yutao Liu, Xingqiu Zhao & Yong Zhou
[5] New highly efficient high-breakdown estimator of multivariate scatter and location for elliptical distributions, by/par Justin Fishbone & Lamine Mili
[6] Identifiability constraints in generalized additive models, by/par Alex Stringer
[7] Nonparametric simulation extrapolation for measurement-error models, by/par Dylan Spicker, Michael P. Wallace & Grace Y. Yi
[8] Bayesian instrumental variable estimation in linear measurement error models, by/par Qi Wang, Lichun Wang & Liqun Wang
[9] Optimal multi-wave validation of secondary use data with outcome and exposure misclassification, by/par Sarah C. Lotspeich, Gustavo G. C. Amorim, Pamela A. Shaw, Ran Tao & Bryan E. Shepherd
[10] A calibration method to stabilize estimation with missing data, by/par Baojiang Chen, Ao Yuan & Jing Qin
[11] A combined moment equation approach for spatial autoregressive models, by/par Jiaxin Liu, Hongliang Liu, Yi Li & Huazhen Lin
[12] On the correlation analysis of stocks with zero returns, by/par Hamdi Raïssi
[13] High-dimensional model averaging for quantile regression, by/par Jinhan Xie, Xianwen Ding, Bei Jiang, Xiaodong Yan & Linglong Kong
[14] Objective model selection with parallel genetic algorithms using an eradication strategy, by/par Jean-François Plante, Maxime Larocque & Michel Adès