2016-Modèles de mélange | Statistical Society of Canada

Modèles de mélange
Président: Hugh Chipman (Acadia University)
[PDF]

MARTIN BLOSTEIN, McMaster University Modélisation robuste de grande dimension avec une distribution gaussienne contaminée [PDF]: La gaussienne contaminée est une distribution elliptique robuste qui permet la détection automatique de « mauvais points » à savoir les valeurs aberrantes et le bruit. Le modèle d'analyse factorielle de la gaussienne contaminée est proposé comme une extension du modèle habituel d'analyse factorielle gaussien latent. En retour, cela introduit un mélange de ces analyseurs de facteur gaussien, permettant une réduction robuste des données et une détection des mauvais points, même avec des données de grande dimension. Le nombre de paramètres libres est contrôlé en spécifiant plusieurs modèles parcimonieux avec différentes contraintes sur la structure de covariance. Pour chaque modèle, une variante de l'algorithme EM est mise en œuvre pour l'estimation des paramètres.
MICHAEL PATRICK BRIAN GALLAUGHER, McMaster University Étendre la classification fractionnaire supervisée aux modèles de mélanges non-gaussiens [PDF]: La classification fractionnaire supervisée a récemment été prise en compte dans le cadre du modèle de mélanges gaussiens. L'approche permet divers degrés de supervision en augmentant ou en diminuant l'influence respective des observations étiquetées et non étiquetées lors de la construction d'un classificateur. À l'aide de données simulées et réelles, la performance de la classification fractionnaire supervisée est considérée dans les cas où les densités des composantes du mélange ne sont pas gaussiennes.
YANG TANG, McMaster University Mise en grappes fondée sur un modèle de données catégoriques avec motifs extrêmes [PDF]: Nous proposons un mélange de modèles de traits latents avec une distribution normale contaminée pour la mise en grappes de données binaires. Un mélange de distributions normales contaminées sont mises à l'œuvre pour capturer les valeurs aberrantes dans l'espace latent de façon à rehausser la performance du groupement. Une approximation variationnelle de la vraisemblance est utilisée pour en tirer un algorithme rapide pour déterminer les paramètres du modèle. Des données réelles et simulées servent à décrire cette approche.
UTKARSH J. DANG, McMaster University Mélanges de puissance exponentielle et extensions biaisées [PDF]: Une famille de mélanges parcimonieux de distributions multivariées de puissance exponentielles est présentée. La distribution multivariée de puissance exponentielle est une variante elliptique flexible des distributions gaussiennes et t de Student, ce qui permet de traiter à la fois des poids de queues variables (légers ou lourds) et l'aplatissement des données. Pour les valeurs particulières du paramètre de forme, des cas particuliers et limitants de cette distribution comprennent les distributions double-exponentielle, gaussienne et uniforme. En outre, une extension de ces modèles qui peut également modéliser les données asymétriques est présentée. Les défis de calcul et d'inférence seront discutés. Enfin, l'utilité des modèles proposés est illustrée à l'aide à la fois de données accessoires et de référence.
ANJALI SILVA, University of Guelph Sélection de modèles de mélange pour l'analyse du regroupement des données de séquençage ARN [PDF]: Les techniques de regroupement à l'aide de modèles utilisent des modèles de mélange. C'est une forme d'apprentissage non supervisé, où l'appartenance à un groupe d'observations est inconnue. Ainsi, les modèles de mélange, généralement utilisés pour le regroupement, sont ajustés pour une série de composantes du modèle possible, et une procédure de sélection de modèles est appliquée afin de déterminer le nombre optimal de composantes. En général, chaque composante correspond à un groupe. Dans cette étude, nous effectuons une analyse de regroupement pour des données de séquençage ARN réelles et simulées, caractérisées comme discrètes, asymétriques et de grandes dimensions. Nous explorons et comparons les différentes modèles sélectionnés à l'aide des critères d'information (BIC, ICL, AIC, AIC3) et de l'heuristique de la pente (Djump et DDSE).