Articles à venir dans La revue canadienne de statistique : Numéro 4, 2017

CJS / RCS

Dans le dernier numéro de 2017, La revue canadienne de statistique présente huit articles portant sur les séries chronologiques, les modèles de régression non paramétrique, l’échantillonnage selon un plan par grappe à deux degrés, les données sur l’état courant, ainsi que les valeurs manquantes.

Les modèles autorégressifs gaussiens sont utiles pour expliquer le comportement hétérogène d’une série chronologique. Une étape critique consiste à déterminer le nombre de régimes autorégressifs et l’ordre d’autorégression. Des critères basés sur l’information tels que l’AIC ou le BIC sont souvent mis à profit en évaluant chaque combinaison de nombre de régimes et d’ordre d’autorégression séparément afin de sélectionner le modèle optimal. Le nombre de combinaisons devient toutefois si grand qu’il rend cette approche inutilisable en termes de calculs. Pour régler ce problème, KHALILI, CHEN et STEPHENS développent d’abord une méthode de régularisation efficace en termes de calculs pour estimer simultanément l’ordre d’autorégression et les paramètres de la série chronologique lorsque le nombre de régimes est fixé. Ils proposent alors un critère d’information bayésien régularisé (RBIC) pour choisir le nombre de régimes.

Le deuxième article porte sur l’analyse de séries chronologiques comportant des données censurées ou tronquées. En pratique, il est courant d’ignorer la censure et de remplacer ces valeurs en fonction d’une limite de détection. Cependant, ce traitement génère généralement des estimés biaisés. SCHUMACHER, LACHOS et DEY proposent ainsi une approximation stochastique analytique efficace de l’algorithme EM afin de trouver l’estimateur au maximum de vraisemblance des paramètres d’un modèle de régression censuré avec des erreurs autorégressives. Les auteurs présentent par ailleurs leur méthode dans le progiciel R ARCensReg.

Les deux articles suivants traitent de données incomplètes en raison de valeurs manquantes et de données censurées par intervalle. MORIKAWA, KIM et KANO examinent un problème de données aux valeurs manquantes qui ne le sont pas au hasard (MNAR). L’analyse de données MNAR requiert deux hypothèses de modélisation : la première pour la variable réponse, l’autre pour la propension à répondre. Spécifier correctement ces deux modèles relève souvent du défi. Les auteurs proposent donc une méthode de vraisemblance semi-paramétrique pour les données MNAR en ce sens qu’un modèle paramétrique est utilisé pour la propension à répondre, mais la variable réponse est traitée de façon non paramétrique. L’analyse qui en résulte s’avère plus robuste qu’une approche complètement paramétrique.

En se concentrant sur des données bivariées d’état courant et des données de pannes censurées par intervalle, HU, ZHOU et SUN utilisent les copules et des marges aux risques proportionnels pour développer une méthode au maximum de vraisemblance en tamis. Facilement applicable, cette méthode laisse la copule sous-jacente indéterminée. Les auteurs montrent la forte convergence de l’estimateur proposé ainsi que la normalité asymptotique.

Les deux articles suivants portent sur des problèmes de régression non paramétrique. ZAMBOM et KIM présentent une nouvelle méthode pour tester l’hétéroscédasticité dans un modèle général de régression multiple non paramétrique. La statistique qu’ils proposent est basée sur une analyse de variance à un facteur en hautes dimensions construite à partir des valeurs absolues des résidus. Les auteurs déterminent sa distribution asymptotique sous l’hypothèse nulle d’homoscédasticité et sous des alternatives locales. Ils montrent que les propriétés de leur statistique de test sont également valides lorsqu’une fonction paramétrique correctement spécifiée est utilisée pour estimer la moyenne.

Pour l’analyse de données multicourbes, DE SOUZA, HECKMAN et XU proposent un modèle de régression non paramétrique intermittent où chaque courbe est générée par un processus latent. L’état d’un point particulier détermine une fonction lisse, forçant les courbes individuelles à passer d’une fonction à l’autre. Les auteures développent un algorithme EM pour estimer les paramètres et obtiennent les erreur-types pour les estimateurs des paramètres du modèle d’états. Elles considèrent trois types d’états cachés : ceux qui sont indépendants et identiquement distribués, ceux qui suivent une structure de Markov, et ceux qui sont indépendants mais dont la distribution dépend de covariables.

Dans le septième article, HOLMQUIST et GUSTAFSSON présentent un test basé sur la vraisemblance à propos de l’existence de regroupements de données directionnelles en sous-populations possédant des directions moyennes différentes. Le test repose sur un modèle hiérarchique où la moyenne d’une loi de von Mises suit elle-même une loi de von Mises. Les auteurs étudient les propriétés du test proposé et le comparent à la technique du second ordre couramment appliquée et à celle du pseudo-regroupement de directions.

Dans le dernier article, KIM, PARK et LEE examinent l’échantillonnage par grappes dans le cadre de modèles linéaires mixtes généralisés. L’échantillonnage selon un plan par grappe à deux degrés avec des probabilités de sélection inhomogènes peut s’avérer informatif car la distribution échantillonnale peut différer de celle dans la population. Les auteurs proposent une approche novatrice en estimant les paramètres à l’aide d’un algorithme EM. Ils évitent la trop complexe vraisemblance échantillonnale en utilisant une approximation normale de la distribution échantillonnale de l’estimateur au maximum du profil de pseudo-vraisemblance de l’effet aléatoire dans le modèle pour le premier degré.


 

Grace Y. Yi

Rédacteur en chef RCS

Jeudi, 30 novembre, 2017

Liaison Newsletter: