Improved Subsample-and-Aggregate via the Private Modified Winsorized Mean

We present a new differentially private mean estimator, called the private modified winsorized mean, designed to be used as the aggregator in subsample-and-aggregate. We show that sometimes, common differentially private multivariate mean estimators may not perform well as the aggregator, even with a dataset with 8000 observations. We show that the modified winsorized mean is minimax optimal for several, large classes of distributions, even under adversarial contamination. We then consider the modified winsorized mean as the aggregator in subsample-and-aggregate, deriving a finite sample deviations bound for a subsample-and-aggregate estimate generated with the new aggregator. This result yields two important insights: (i) the optimal choice of subsamples depends on the bias of the estimator computed on the subsamples, and (ii) the rate of convergence of the subsample-and-aggregate estimator depends on the robustness of the aggregated estimator.

Amélioration de la méthode de sous-échantillonnage et d’agrégation grâce à la moyenne winsorisée modifiée privée

Nous présentons un nouvel estimateur de moyenne satisfaisant la confidentialité différentielle, appelé moyenne winsorisée modifiée privée, conçu pour être utilisé comme agrégateur dans la méthode de sous-échantillonnage et d’agrégation. Nous montrons que, parfois, les estimateurs de moyenne multivariée avec confidentialité différentielle courants peuvent ne pas donner de bons résultats en tant qu'agrégateur, même avec un ensemble de données de 8000 observations. Nous montrons que la moyenne winsorisée modifiée est optimale relativement au minimax pour plusieurs grandes classes de distributions, même en cas de contamination adverse. Nous considérons ensuite la moyenne winsorisée modifiée comme l'agrégateur dans la méthode de sous-échantillonnage et d’agrégation, en dérivant une borne d'erreur en d'échantillon fini pour une estimation générée avec le nouvel agrégateur. Ce résultat apporte deux informations importantes : (1) le choix optimal des sous-échantillons dépend du biais de l'estimateur calculé sur les sous-échantillons, et (2) le taux de convergence de l'estimateur par la méthode de sous-échantillonnage et d’agrégation dépend de la robustesse de l'estimateur agrégé.

Session

New Frontiers in Statistical Theory and Methods

Date and Time