Minimax Rate Optimal Algorithms For High-Dimensional Stochastic Linear Bandits
We consider the stochastic linear bandit problem over T rounds, where the covariate dimension d may exceed T, although each arm-specific parameter vector has at most s non-zero components. First, we study the single-arm case, focusing on the cumulative estimation error of the parameter vector. We show that Lasso has a sub-optimal dependence on d and T regarding worst-case error in the online estimation setup. Further, we establish the minimax optimality of the thresholded Lasso, which first estimates the support of the parameter vector by thresholding the Lasso estimator and then runs least squares on the selected support. Second, we consider the bandit setup, using the thresholded Lasso as the main estimation method. We propose a three-stage algorithm for arm selection and derive an upper bound of order s(log(d)+log(T))log(s) on its cumulative regret. Finally, we establish a matching lower bound up to a log(s) multiplicative term, which shows its near minimax optimality.
Algorithmes optimaux à taux minimax pour les bandits linéaires stochastiques de grande dimension
Nous considérons le problème du bandit linéaire stochastique sur T tours, où la dimension des covariables d peut dépasser T, bien que chaque vecteur de paramètres spécifique au bras ait au plus s composantes non nulles. Nous commençons par étudier le cas d'un seul bras, en nous concentrant sur l'erreur d'estimation cumulative du vecteur de paramètres. Nous montrons que le Lasso a une dépendance sous-optimale par rapport à d et T en ce qui concerne l'erreur la plus défavorable dans la configuration de l'estimation en ligne. En outre, nous établissons l'optimalité minimax du Lasso seuillé, qui estime d'abord le support du vecteur de paramètres en seuillant l'estimateur Lasso, puis exécutons les moindres carrés sur le support sélectionné. Ensuite, nous considérons la configuration de bandit, en utilisant le Lasso seuillé comme principale méthode d'estimation. Nous proposons un algorithme en trois étapes pour la sélection des bras et dérivons une limite supérieure d'ordre s(log(d)+log(T))log(s) sur son regret cumulatif. Enfin, nous établissons une borne inférieure correspondante jusqu'à un terme multiplicatif log(s) près, qui montre son optimalité proche du minimax.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais