Selective Inference after Outlier Detection

Outliers are observations departing markedly from the main body of data. Typically, candidate outliers are first identified using modern outlier detection techniques, after which one may perform a formal statistical test to determine whether these points are truly outlying. However, this two-stage procedure poses challenges: classical tests are valid only for pre-specified outliers and break down when detection is data-driven. Motivated by advances in selective inference, we develop a methodology for valid finite-sample inference following outlier detection. We characterize the selection events induced by widely used procedures, including the interquartile range (IQR) rule for univariate data and the k-nearest neighbors (kNN) method for multivariate data. For these, we derive exact selection-adjusted tests avoiding Monte Carlo sampling. Our approach also extends to inference after cellwise outlier detection, providing a principled inferential framework for two-stage outlier analysis.

Inférence sélective après détection d'aberrations

Les valeurs aberrantes sont des observations qui s'écartent nettement de l'ensemble des données. En général, les valeurs aberrantes potentielles sont d'abord identifiées à l'aide de techniques modernes de détection des valeurs aberrantes, après quoi on peut effectuer un test statistique formel pour déterminer si ces points sont réellement aberrants. Cependant, cette procédure en deux étapes pose des difficultés : les tests classiques ne sont valables que pour les valeurs aberrantes prédéfinies et ne fonctionnent pas lorsque la détection est basée sur les données. Motivés par les progrès réalisés dans le domaine de l'inférence sélective, nous développons une méthodologie pour réaliser une inférence valide sur un échantillon fini après détection des valeurs aberrantes. Nous caractérisons les événements de sélection induits par des procédures largement utilisées, notamment la règle de l'intervalle interquartile (IQR) pour les données univariées et la méthode des k plus proches voisins (kNN) pour les données multivariées. Pour celles-ci, nous dérivons des tests exacts ajustés en fonction de la sélection, évitant ainsi l'échantillonnage de Monte Carlo. Notre approche s'étend également à l'inférence après la détection des valeurs aberrantes au niveau des cellules, fournissant ainsi un cadre d'inférence fondé sur des principes pour l'analyse des valeurs aberrantes en deux étapes.

Session

Nouvelles frontières en statistique industrielle et de gestion : détection des valeurs aberrantes et valeurs p

Date and Time

mer 03/06/2026 - 11:20 - mer 03/06/2026 - 11:35

Co-auteurs (non y compris vous-même)

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker