Bayesian Design with False Discovery Rates and Power
Businesses frequently run online controlled experiments (i.e., A/B tests) to learn about the effect of an intervention on multiple business metrics. To account for multiple hypothesis testing, multiple metrics are commonly aggregated into a single composite measure, losing valuable information, or strict family-wise error rate adjustments are imposed, leading to reduced power. We propose an economical framework to design Bayesian A/B tests while controlling both power and the false discovery rate (FDR). Selecting optimal decision thresholds to control power and the FDR typically relies on intensive simulation at each sample size considered. Our framework efficiently recommends optimal sample sizes and decision thresholds for Bayesian A/B tests that satisfy criteria for the FDR and average power. Our approach is efficient because we leverage new theoretical results to obtain these recommendations using simulations conducted at only two sample sizes.
Conception bayésienne avec taux de fausses découvertes et puissance
Les entreprises mènent fréquemment des expériences contrôlées en ligne (c'est-à-dire des tests A/B) afin de connaître l'effet d'une intervention sur plusieurs indicateurs commerciaux. Pour tenir compte des tests d'hypothèses multiples, plusieurs indicateurs sont généralement regroupés en une seule mesure composite, ce qui entraîne une perte d'informations précieuses, ou alors des ajustements stricts du taux d'erreur familial sont imposés, ce qui réduit la puissance. Nous proposons un cadre économique pour concevoir des tests A/B bayésiens tout en contrôlant à la fois la puissance et le taux de fausses découvertes (FDR). La sélection de seuils de décision optimaux pour contrôler la puissance et le FDR repose généralement sur une simulation intensive pour chaque taille d'échantillon considérée. Notre cadre recommande efficacement des tailles d'échantillon et des seuils de décision optimaux pour les tests A/B bayésiens qui satisfont aux critères du FDR et de la puissance moyenne. Notre approche est efficace, car nous exploitons de nouveaux résultats théoriques pour obtenir ces recommandations à l'aide de simulations réalisées sur seulement deux tailles d'échantillon.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English