Random k Conditional Nearest Neighbor for High-Dimensional Data

The k-nearest neighbor (kNN) algorithm is simple and effective for classification, with many variants developed based on the kNN. One of the limitations of kNN is that the method may be less effective when data contains many noisy features due to their non-informative influence in calculating distance. Additionally, information derived from nearest neighbors may be less meaningful in high-dimensional data. To address the limitation of nearest-neighbor based approaches in high-dimensional data, we extend the k conditional nearest neighbor (kCNN) method, an effective kNN variant. The proposed approach aggregates multiple kCNN classifiers, each built from a randomly sampled feature subset, and assigns weights using a score metric based on the level of separation of the feature subsets. We evaluate its properties through simulations, and experiments on gene expression datasets demonstrate its predictive performance.

k plus proches voisins conditionnels aléatoires pour données à haute dimension

L'algorithme des k plus proches voisins (kNN) est une méthode simple et efficace pour la classification, avec de nombreuses variantes développées à partir du kNN. L'une des limites du kNN est que cette méthode peut être moins performante lorsque les données contiennent de nombreux prédicteurs bruités, car ceux-ci introduisent du bruit non informatif dans le calcul des distances. De plus, les informations dérivées des plus proches voisins peuvent être moins pertinentes dans des données à haute dimension.

Pour remédier aux limites des approches basées sur les plus proches voisins dans un contexte de haute dimension, nous étendons la méthode des k plus proches voisins conditionnels (kCNN), une variante efficace du kNN. L'approche proposée regroupe plusieurs classificateurs kCNN, chacun construit à partir d'un sous-ensemble de prédicteurs échantillonné aléatoirement, et attribue des poids à l'aide d'une métrique de score fondée sur le niveau de séparation des sous-ensembles de prédicteurs. Nous évaluons ses propriétés à l'aide de simulations et en démontrons la performance prédictive par des expériences sur des ensembles de données d'expression de gènes.

Session

Advances in Data Science and Analytics

Date and Time

Tue, 05/27/2025 - 10:50 - Tue, 05/27/2025 - 11:05

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English