MIP-FoSR: Mixed Integer Programming for Variable Selection and Outlier Detection in Function-on-scalar Regression
Function-on-scalar regression (FoSR) is a generalization of linear regression in which many scalar predictors are employed to model a functional response, i.e., data available in the form of functions over a continuum. We propose a mixed-integer programming (MIP) framework to perform simultaneous best subset variable selection and outlier detection for FoSR. We employ basis expansion to express each coefficient function and outlying curve as a finite scalar vector and introduce grouped binary variables to activate/deactivate each of these vectors entirely, yielding a MIP with explicit bounds on the number of selected predictors and detected outliers. We prove the functional robust oracle property of the proposed method and evaluate its performance through extensive simulations. Finally, we apply it to study the effect of microbiome composition on infant growth curves. MIP-FoSR shows consistently good performance while remaining practically solvable with modern MIP solvers.
MIP-FoSR : optimisation en nombres entiers pour la sélection de variables et la détection d’observations aberrantes en régression fonction-sur-scalaire
La régression fonction-sur-scalaire (FoSR) généralise la régression linéaire en ce sens qu’elle mobilise de nombreux prédicteurs scalaires pour modéliser une réponse fonctionnelle, c’est-à-dire des données observées sous forme de fonctions définies sur un continuum. Nous proposons un cadre de programmation mixte en nombres entiers (MIP) permettant d’effectuer simultanément une sélection de variables par meilleur sous-ensemble et une détection de valeurs aberrantes en FoSR. À l’aide d’un développement sur une base, nous représentons chaque fonction de coefficient ainsi que chaque courbe aberrante par un vecteur scalaire de dimension finie, et nous introduisons des variables binaires groupées afin d’activer ou de désactiver entièrement chacun de ces vecteurs. On obtient ainsi un MIP imposant des bornes explicites sur le nombre de prédicteurs retenus et sur le nombre d’observations identifiées comme aberrantes. Nous établissons la propriété d’oracle robuste, au sens fonctionnel, de la méthode proposée et évaluons ses performances au moyen de simulations approfondies. Enfin, nous l’appliquons à l’étude de l’effet de la composition du microbiome sur les courbes de croissance des nourrissons. MIP-FoSR présente systématiquement des bonnes performances tout en restant résoluble en pratique à l’aide des solveurs MIP modernes.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English