2016-Données multivariées


Données multivariées 
Président: Lisa Lix (University of Manitoba) 
[PDF]

BRIAN FRANCZAK, McMaster University
Analyse discriminante à l'aide de mélanges parcimonieux à multiples échelles  [PDF]
 
Les mélanges de distributions à multiples échelles ont suscité une attention accrue au cours des dernières années. Un problème avec ces mélanges est que les structures de covariance deviennent très paramétrées lorsque la dimension des données augmente. Du fait que ces distributions à multiples échelles sont formulées à partir d'une matrice d'échelle décomposée en vecteurs propres, nous pouvons introduire de la parcimonie en limitant les éléments constitutifs de cette décomposition. Nous introduisons une famille de mélanges parcimonieux à multiples échelles où les densités des composantes sont une généralisation de la fonction de densité t multivariée. Nous utilisons ces modèles pour l'analyse discriminante en utilisant de vrais jeux de données et en comparant leurs résultats à l'alternative gaussienne. 
 
HAOCHENG LI, University of Calgary
Données longitudinales multivariées avec types de mesures mixtes  [PDF]
 
Nous prenons une modélisation de l'effet aléatoire aux données longitudinales avec plusieurs mesures de différents types. Les résultats peuvent être des variables continues, binaires, de compte et proportionnelles mesurées à différents points dans le temps avec des effets aléatoires ayant une structure de corrélation hiérarchique. À l'aide d'une approximation de type quasi-vraisemblance pour les composantes non gaussiennes, nous transformons tous les types de mesures en variables pseudo-normales. Les réponses transformées sont ajustées par un algorithme de ECME qui est efficace pour des effets aléatoires de grande dimension. La méthode est appliquée aux données d'activité physique et est évaluée empiriquement par une étude de simulation. 
 
YUBIN (ÉRIC) LI, University of Windsor
Estimation en régression multivariée avec erreur de mesure et points de rupture  [PDF]
 
Dans cette présentation, il est question du problème d'estimation dans le modèle de régression multivarié avec erreur de mesure et points de rupture inconnus. En particulier, nous considérons le cas où le paramètre d'intérêt est la matrice des coefficients de régression qui est susceptible d'être sujette à certaines restrictions. Face à cette incertitude, nous proposons les estimateurs à rétrécissement et étudions leurs propriétés asymptotiques. Les propriétés asymptotiques établies généralisent certains résultats de la littérature récente. Nous prouvons également que les estimateurs à rétrécissement établis dominent l'estimateur sans restriction. 
 
MAKOSSO-KALLYTH SUN, McMaster University
Réduction de la dimension de variables de type histogramme  [PDF]
 
Nous présentons l'application de deux extensions de l'analyse en composantes principales de variables de type histogramme. Les tableaux de données distributionnelles correspondent aux tableaux de données pour lesquelles chaque individu et chaque variable sont décrits par une distribution empirique ou un histogramme. Nous présentons deux approches basées respectivement sur les moments d'ordre 1 et les quantiles. Nous comparons et montrons l'intérêt de ces méthodes à partir de données réelles. 
 
IRENE VRBIK, McGill University
Analyse de mise en grappes de données de séquence génétique en utilisant le procédé des écarts  [PDF]
 
La mise en grappes phylogénétique fait généralement appel à l'estimation d'un arbre phylogénétique et à l'identification de groupes de séquences de courte distance génétique et support de clade élevé. Nous explorons un algorithme de classification simple fondé sur la distance, appelé procédé des écarts, qui utilise des écarts en distances par paires ordonnées afin de suggérer une division naturelle entre les membres et non-membres d'un groupe. Nous montrons que les groupements obtenus par le procédé des écarts s'harmonisent étroitement avec ceux obtenus des techniques de référence computationnellement très coûteuses sur des groupes bien séparés de données relatives à la séquence du VIH. Des études de simulation sont présentées pour illustrer des scénarios dans lesquels cet algorithme peut être utilisé, et plus important encore, lorsque des méthodes plus complexes sont nécessaires. 
 
YANG ZHAO, University of Regina
Classification et analyse factorielle pour l'inférence de données massives~: une étude des comportements de joueurs et des facteurs associés  [PDF]
 
Cette recherche passe en revue les méthodes statistiques pour l'inférence de données massives. Nous nous attardons aux k-moyennes et aux modèles linéaires généralisés pour la classification et l'analyse factorielle des données massives. Nous nous intéressons à l'étude des comportements de joueurs et à l'identification des joueurs pour qui le jeu est problématique. Nous utilisons la base de données pour les jeux de cartes des casinos de la Saskatchewan. Nous classifions les joueurs dans divers groupes à risque en fonction d'observations multivariées et étudions les facteurs en rapport avec les comportements de joueurs.