Robust Multitask Feature Learning with Adaptive Huber Regressions

When data from multiple tasks have outlier contamination, existing multitask learning methods perform less efficiently. We propose a robust multitask feature learning method by combining the adaptive Huber regression tasks with mixed regularization. The robustification parameters can be chosen to adapt to the sample size, model dimension, and moments of the error distribution while striking a balance between unbiasedness and robustness. We consider heavy-tailed distributions for multiple datasets that have bounded (1 + 𝜔)th moment for any 𝜔 > 0. Our method can achieve estimation and sign recovery consistency. Additionally, we propose a robust information criterion to conduct joint inference on related tasks, which can be used for consistent model selection. Through numeric studies, we illustrate that the performance of the proposed model can provide smaller estimation errors and higher feature selection accuracy than non-robust multitask learning and robust single-task methods.

Apprentissage robuste de caractéristiques multitâches à l'aide de régressions de Huber adaptatives

En présence de données multitâches contaminées par des observations aberrantes, les méthodes d’apprentissage multitâches conventionnelles s’avèrent moins performantes. Nous proposons une méthode robuste d’apprentissage multitâches combinant une régression de Huber adaptative et une régularisation mixte. Les paramètres de robustesse sont ajustés en fonction de la taille de l’échantillon, de la dimension du modèle et des moments de la distribution des erreurs, assurant un équilibre optimal entre absence de biais et robustesse. L’analyse porte sur des distributions à queues lourdes, admettant des moments d’ordre (1 + 𝜔) finis pour tout 𝜔 > 0. Cette approche garantit la convergence des estimateurs et la cohérence dans l’identification des signes. En complément, un critère d’information robuste est proposé pour effectuer une inférence conjointe sur les tâches corrélées, permettant une sélection de modèles cohérente. Des études en simulation et des applications à des données réelles montrent que cette méthode surpasse les approches multitâches non robustes et les méthodes robustes monotâches en termes d’erreur d’estimation et d’exactitude dans la sélection des caractéristiques.

Session

Concours pour le Prix de la présentation par un nouveau chercheur en science des données et analyse de données

Date and Time

lun 01/06/2026 - 13:45 - lun 01/06/2026 - 14:00

Co-auteurs (non y compris vous-même)

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker