Aller au contenu principal
Principal Component Analysis that can handle Casewise and Cellwise Outliers
Principal component analysis (PCA) is a fundamental tool for analyzing multivariate data. Here the focus is on dimension reduction to the principal subspace, characterized by its projection matrix. The classical principal subspace can be strongly affected by the presence of outliers. Traditional robust approaches consider casewise outliers, that is, cases generated by an unspecified outlier distribution that differs from that of the clean cases. But there may also be cellwise outliers, which are suspicious entries that can occur anywhere in the data matrix. Another common issue is that some cells may be missing. This paper proposes a new robust PCA method, called cellPCA, that can simultaneously deal with casewise outliers, cellwise outliers, and missing cells. Its single objective function combines two robust loss functions that together mitigate the effect of casewise and cellwise outliers. Residual cellmaps and enhanced outlier maps are proposed for outlier detection.
Analyse en composantes principales capable de traiter les outliers par cas et par cellule
L'analyse en composantes principales (ACP) est un outil fondamental pour l'analyse des données multivariées. L'accent est mis ici sur la réduction des dimensions au sous-espace principal, caractérisé par sa matrice de projection. Le sous-espace principal classique peut être fortement affecté par la présence d'outliers. Les approches robustes traditionnelles prennent en compte les outliers par cas, c'est-à-dire les cas générés par une distribution d'outliers non spécifiée qui diffère de celle des cas propres. Mais il peut également y avoir des outliers au niveau des cellules, c'est-à-dire des entrées suspectes qui peuvent se trouver n'importe où dans la matrice de données. Un autre problème courant est que certaines cellules peuvent être manquantes. Cet article propose une nouvelle méthode d'ACP robuste, appelée cellPCA, qui peut traiter simultanément les outliers au niveau des cas, les outliers au niveau des cellules, et les cellules manquantes. Sa fonction objective combine deux fonctions de perte robustes qui, ensemble, atténuent l'effet des outliers par cas et par cellule. Des graphiques de cellules résiduelles et des graphiques de cas aberrants sont proposés pour la détection des outliers.
Date and Time
-
Co-auteurs (non y compris vous-même)
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Peter J Rousseeuw KU Leuven(University of Leuven)