A Leave-One-Out Influence Statistic for Scalable Density-Based Outlier Detection

We introduce a leave one out influence score for density based outlier detection that quantifies the self support of an observation: how much the estimated density at a point depends on the point itself. Unlike local density methods that compare a point to its neighbors, the proposed score measures structural influence on the estimator, so influential but not necessarily isolated points can be highlighted.

For the Generalized Linear Blend Frequency Polygon estimator, we derive an exact closed form that yields constant time computation per observation after fitting the density and linear total complexity, avoiding the quadratic cost of naive leave one out kernel methods. To reduce sensitivity to smoothing choices, we propose a multi scale rank stability diagnostic that aggregates influence rankings across resolutions and separates persistent anomalies from grid artifacts. Simulations and a real data application illustrate accuracy, scalability, and interpretable diagnostics.

Un score d’influence "leave-one-out" pour la détection d’anomalies fondée sur la densité

Nous introduisons un score d’influence "leave-one-out" pour la détection d’anomalies fondée sur la densité, qui quantifie le soutien propre d’une observation, c’est-à-dire dans quelle mesure la densité estimée en un point dépend de cette observation elle-même. Contrairement aux méthodes locales fondées sur la densité qui comparent un point à ses voisins, le score proposé mesure l’influence structurelle sur l’estimateur, ce qui permet de mettre en évidence des points influents sans qu’ils soient nécessairement isolés.

Pour l’estimateur Generalized Linear Blend Frequency Polygon (GLBFP), nous dérivons une forme fermée exacte qui permet un calcul en temps constant par observation après l’estimation de la densité, et une complexité totale linéaire, évitant ainsi le coût quadratique des méthodes "leave-one-out" à noyau naïves. Afin de réduire la sensibilité aux choix de lissage, nous proposons un diagnostic de stabilité des rangs multi-échelle qui agrège les classements d’influence à différentes résolutions et distingue les anomalies persistantes des artefacts liés à la grille. Des simulations et une application sur données réelles illustrent la précision, la efficacité computationnelle et l'interprétabilité des diagnostics proposés.

Session

Concours pour le Prix de la présentation par un nouveau chercheur en science des données et analyse de données

Date and Time