À l’heure où j’écris ces lignes, l’été touche à sa fin. L’ancienne maquette graphique de la RCS tire aussi sa révérence. Les quatorze articles du numéro de septembre en sont les derniers vestiges. Ils n’en sont pas moins intéressants pour autant. Voici un condensé de leur contenu.
L’été a été ponctué par de nombreuses manifestations sportives de haut niveau. Si vous avez suivi l’Euro de l’UAEF ou la Copa América, vous vous régalerez sans doute du premier article, dans lequel Roberts et Rosenthal [1] se demandent comment concevoir des tournois par tirages au sort transparents et équitables en fonction des contraintes, tout en permettant de diffuser des matchs divertissants. Ils expliquent en quoi le tirage au sort de la Coupe du monde de la FIFA 2022 était inéquitable et proposent divers rectificatifs facilement adaptables à d’autres sports.
L’étude du comportement des internautes au moyen de flux de clics pose de beaux défis statistiques de regroupement et classification. Gallaugher et McNicholas [2] préconisent l’emploi d’un mélange de modèles de Markov continus du premier ordre aux fins d’apprentissage semi- ou non-supervisé. Leur approche permet de tenir compte du temps qu’un usager passe sur un site.
Les quatre articles suivants portent sur l’analyse de données fonctionnelles. Pan, Shen et Hu [3] étudient l’hétérogénéité spatiale de données fonctionnelles observées en des lieux corrélés dans l’espace. Leur approche bayésienne de regroupement non paramétrique s’appuie sur un processus de restauration chinoise géo-pondéré et une loi a priori autorégressive conditionnelle. Do et Du [4] adaptent l’analyse de la variance aux données fonctionnelles groupées. Pour s’affranchir du postulat d’indépendance des observations, ils proposent un test de contraste fonctionnel tenant compte de la dépendance temporelle au sein des groupes. Zhou, Yan et Zhou [5] développent un modèle robuste pour données fonctionnelles appariées éparses, telles les courbes lumineuses multi-bandes des supernovas. Leur approche fait intervenir des composantes principales fonctionnelles, la modélisation conjointe de leurs scores et des erreurs de mesure, ainsi que des splines. Hao, Liu, Su et Zhao [6] abordent les effets potentiels des prédicteurs fonctionnels et scalaires sur les risques de mortalité. Ils proposent pour ce faire un modèle à risques additifs fonctionnels et une méthode d’estimation par moindres carrés pénalisés fondée sur une équation d’estimation de pseudo-score.
Comme chacun sait, des méthodes statistiques spécifiques sont nécessaires au traitement d’erreurs de mesure ou de données incomplètes. Jin, Liu, Mao, Sun et Wu [7] s’intéressent entre autres aux études cliniques où la date d’éclosion d’une maladie repose sur les souvenirs du patient ou sur l’examen de dossiers médicaux électroniques. En ayant recours à une technique d’extrapolation par simulation qui tient compte des erreurs de mesure, ils estiment une durée de vie de façon non paramétrique à partir de données censurées par intervalles. On trouve aussi des données incomplètes en sciences de l’environnement ; les concentrations chimiques, entre autres, sont souvent censurées à gauche et parfois manquantes. Pour modéliser ces dernières, Valeriano, Schumacher, Galarza et Matos [8] proposent un modèle de régression linéaire censuré avec des erreurs corrélées en série et des innovations de Student. Pour obtenir des estimations à vraisemblance maximale, ils utilisent une approximation stochastique de l’algorithme EM.
Les données manquantes, dont la non-réponse, sont également fréquentes dans les enquêtes. Chen, Haziza et Michal [9] mettent de l’avant une classe de procédures d’imputation robustes au viol de plusieurs postulats du modèle, dont la présence d’unités influentes. Ils développent ensuite une version efficace d’estimateurs robustes adaptée au contexte, dans laquelle l’influence d’une unité est mesurée par le biais conditionnel.
Les deux articles suivants portent sur la modélisation de données discrètes ou mixtes. Yan et Ma [10] considèrent des données longitudinales ayant une masse à l’origine. Leur approche, fondée sur une loi de Poisson composée de Tweedie à effets aléatoires non paramétriques corrélés en série, permet d’interpréter les effets des covariables tant pour la moyenne de la population que pour chaque sujet. Kang, Zhu, Wang et Wang [11] élaborent un modèle autorégressif géométrique de premier ordre à zéro modifié pour traiter un surcroît ou un manque de zéros, de même qu’une éventuelle sur- ou sous-dispersion dans les séries temporelles de dénombrement.
Les trois derniers papiers traitent d’intégration des données. Yu, Ye et Wang [12] se penchent sur l’emploi de modèles de régression linéaire en haute dimension pour la prise en compte de l’hétérogénéité de sources de données multiples. Ils ont mis au point un algorithme de regroupement par pénalité adaptative qui permet la sélection des variables à la source et le regroupement des coefficients des covariables grâce à une approche par multiplicateurs et direction alternée pour l’estimation des paramètres. Zhang, Wu et Gao [13] analysent des données corrélées issues de plateformes multiples. En plus d’étendre les modèles linéaires existants en incluant des erreurs aléatoires infra-gaussiennes et infra-exponentielles, ils suggèrent un critère de sélection de modèle basé sur les probabilités a posteriori composites de Bayes pour identifier les prédicteurs importants sur plusieurs plates-formes. Enfin, Hector [14] vise à déterminer quelles sources de données partagent le même paramètre de modèle moyen dans un contexte où diverses études indépendantes recueillent chacune plusieurs résultats vectoriels dépendants. La technique qu’elle décrit spécifie une fonction d’inférence quadratique pour chaque source de données et combine les paramètres moyens du modèle à l’aide d’une nouvelle formulation d’une pénalité de fusion par paire.
Je vous souhaite d’inspirantes lectures et un bon semestre d’automne !
Johanna G. Nešlehová, rédactrice en chef
La revue canadienne de statistique
Table of Contents of the September 2024 Issue of The Canadian Journal of Statistics
Table des matières du numéro de septembre 2024 de La revue canadienne de statistique
Football group draw probabilities and corrections, by/par Gareth O. Roberts & Jeffrey S. Rosenthal
Clustering and semi-supervised classification for clickstream data via mixture models, by/par Michael P. B. Gallaugher & Paul D. McNicholas
Clustering spatial functional data using a geographically weighted Dirichlet process, by/par Tianyu Pan, Weining Shen & Guanyu Hu
Contrast tests for groups of functional data, by/par Quyen Do & Pang Du
Robust joint modelling of sparsely observed paired functional data, by/par Huiya Zhou, Xiaomeng Yan & Lan Zhou
Semiparametric estimation for the functional additive hazards model, by/par Meiling Hao, Kin-yat Liu, Wen Su & Xingqiu Zhao
Nonparametric estimation of a survival function in the presence of measurement errors on the failure time of interest, by/par Shaojia Jin, Yanyan Liu, Guangcai Mao, Jianguo Sun & Yuanshan Wu
Censored autoregressive regression models with Student-t innovations, by/par Katherine A. L. Valeriano, Fernanda L. Schumacher, Christian E. Galarza & Larissa A. Matos
Efficient multiply robust imputation in the presence of influential units in surveys, by/par Sixia Chen, David Haziza & Victoire Michal
Modelling occurrence and quantity of longitudinal semicontinuous data simultaneously with nonparametric unobserved heterogeneity, by/par Guohua Yan & Renjun Ma
A zero-modified geometric INAR(1) model for analyzing count time series with multiple features, by/par Yao Kang, Fukang Zhu, Dehui Wang & Shuhui Wang
High-dimensional variable selection accounting for heterogeneity in regression coefficients across multiple data sources, by/par Tingting Yu, Shangyuan Ye & Rui Wang
Bayesian model selection via composite likelihood for high-dimensional data integration, by/par Guanlin Zhang, Yuehua Wu & Xin Gao
Fused mean structure learning in data integration with dependence, by/par Emily C. Hector