Aller au contenu principal
Selective Inference after Outlier Detection
Outliers are observations departing markedly from the main body of data. Typically, candidate outliers are first identified using modern outlier detection techniques, after which one may perform a formal statistical test to determine whether these points are truly outlying. However, this two-stage procedure poses challenges: classical tests are valid only for pre-specified outliers and break down when detection is data-driven. Motivated by advances in selective inference, we develop a methodology for valid finite-sample inference following outlier detection. We characterize the selection events induced by widely used procedures, including the interquartile range (IQR) rule for univariate data and the k-nearest neighbors (kNN) method for multivariate data. For these, we derive exact selection-adjusted tests avoiding Monte Carlo sampling. Our approach also extends to inference after cellwise outlier detection, providing a principled inferential framework for two-stage outlier analysis.
Inférence sélective après détection d'aberrations
Les valeurs aberrantes sont des observations qui s'écartent nettement de l'ensemble des données. En général, les valeurs aberrantes potentielles sont d'abord identifiées à l'aide de techniques modernes de détection des valeurs aberrantes, après quoi on peut effectuer un test statistique formel pour déterminer si ces points sont réellement aberrants. Cependant, cette procédure en deux étapes pose des difficultés : les tests classiques ne sont valables que pour les valeurs aberrantes prédéfinies et ne fonctionnent pas lorsque la détection est basée sur les données. Motivés par les progrès réalisés dans le domaine de l'inférence sélective, nous développons une méthodologie pour réaliser une inférence valide sur un échantillon fini après détection des valeurs aberrantes. Nous caractérisons les événements de sélection induits par des procédures largement utilisées, notamment la règle de l'intervalle interquartile (IQR) pour les données univariées et la méthode des k plus proches voisins (kNN) pour les données multivariées. Pour celles-ci, nous dérivons des tests exacts ajustés en fonction de la sélection, évitant ainsi l'échantillonnage de Monte Carlo. Notre approche s'étend également à l'inférence après la détection des valeurs aberrantes au niveau des cellules, fournissant ainsi un cadre d'inférence fondé sur des principes pour l'analyse des valeurs aberrantes en deux étapes.
Date and Time
-
Co-auteurs (non y compris vous-même)
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Kun Wang University of Waterloo