A Run Length Weighted Mean Difference Approach for Enhanced Feature Selection

Biomedical data with high dimensions tend to have numbers of irrelevant and redundant features, so they impact classification accuracy and interpretability adversely. This paper introduces a filter-based feature selection procedure known as run length weighted mean difference (RLWMD) that attempts to find features that exhibit consistent and discriminative differences between classes. For each feature, its samples are sorted based on their values, followed by the sequence of class labels being split into runs. To further deter noisy features, a purity parameter uses the count of transitions of the class labels to penalize erratic ordering patterns. Random forest, k-nearest neighbours and support vector machines are used to evaluate the proposed method on five benchmark gene expression datasets. The findings demonstrate that RLWMD attains lower classification error and greater Cohen's kappa than established solutions, while at the same time being simple and computationally efficient.

Une approche fondée sur la différence moyenne pondérée par la longueur des plages pour une sélection de variables améliorée

Les données biomédicales de grande dimension contiennent souvent un nombre important de caractéristiques non pertinentes et redondantes, ce qui affecte négativement la précision de la classification et l’interprétabilité. Cet article présente une méthode de sélection de variables de type filtre appelée différence moyenne pondérée par la longueur des plages (run length weighted mean difference, RLWMD), visant à identifier des caractéristiques présentant des différences cohérentes et discriminantes entre les classes. Pour chaque variable, les échantillons sont triés selon leurs valeurs, puis la séquence des étiquettes de classe est divisée en plages. Afin de limiter l’influence des variables de bruit, un paramètre de pureté utilise le nombre de transitions entre étiquettes pour pénaliser les structures irrégulières. Les forêts aléatoires, les k plus proches voisins et les machines à vecteurs de support sont utilisés pour évaluer la méthode sur cinq jeux de données d’expression génique de référence. Les résultats montrent que RLWMD produit un taux d’erreur de classification plus faible et un coefficient kappa de Cohen plus élevé que des méthodes établies, tout en restant simple et efficace sur le plan computationnel.

Session

Advances in Statistical Genetics I

Date and Time

Mon, 06/01/2026 - 11:35 - Mon, 06/01/2026 - 11:50

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English