Surrogate-Guided Classification with Noisy Labels via Mixture Modeling

Reliable labels are often unavailable in real-world classification problems, leading to reliance on imperfect surrogates such as noisy annotators. Treating these labels as truth can bias inference. We present a probabilistic framework that integrates covariates, multiple noisy labels, and an informative auxiliary variable through a mixture model, treating the true label as latent and estimating parameters via the EM algorithm. The method accommodates both differential and non-differential misclassification. Simulations and a real-data example show improved classification performance over standard approaches, especially when labels are limited or unreliable. This work demonstrates how modeling label noise can enhance inference in semi-supervised settings.

Classification guidée par substitut avec étiquettes bruitées via modélisation par mélange

Dans les problèmes de classification réels, il est souvent impossible d'obtenir des étiquettes fiables, ce qui oblige à l'utilisation de substituts imparfaits, tels que des annotateurs bruités. Considérer ces étiquettes comme vraies peut biaiser l'inférence. Nous présentons un cadre probabiliste qui intègre des covariables, plusieurs étiquettes bruitées et une variable auxiliaire informative à travers un modèle mixte, en traitant l'étiquette vraie comme latente et en estimant les paramètres via l'algorithme EM. La méthode s'adapte à la fois aux erreurs de classification différentielles et non différentielles. Des simulations et un exemple de données réelles montrent une amélioration des performances de classification par rapport aux approches standard, en particulier lorsque les étiquettes sont limitées ou peu fiables. Ce travail démontre comment la modélisation du bruit des étiquettes peut améliorer l'inférence dans des contextes semi-supervisés.

Session

Concours pour le Prix de la meilleure présentation orale de recherche étudiante en biostatistique II

Date and Time

lun 01/06/2026 - 15:45 - lun 01/06/2026 - 16:00

Co-auteurs (non y compris vous-même)

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker