Likelihood Tempering to Mitigate Prior Dominance in Variational Inference for Bayesian Neural Networks
Variational inference is an increasingly popular method for approximating posterior densities of Bayesian neural networks. However, in the infinite-width regime, mean-field variational posteriors at the parameter level yield predictive posteriors (at the function level) that mimic the prior predictive distribution. Intuitively, the variational optimization problem induces a regularization that is too strong. To address this issue, we adopt a generalized Bayes approach and replace p(Y|θ) with p(Y|θ)^λ for λ>1. This modifies the ELBO, effectively downweighting the KL-regularization term by a factor 1/λ. We study this phenomenon in a tractable setting using shallow linear neural networks with Gaussian priors. We demonstrate that as the mean-field variational (parameter-)posterior approaches the cold posterior, the resulting predictive posterior converges to the exact, untempered predictive posterior, provided λ is scaled appropriately with the network width.
Tempérage de la vraisemblance pour atténuer la dominance de la loi a priori dans l’inférence variationnelle pour les réseaux de neurones bayésiens
L’inférence variationnelle est une méthode de plus en plus populaire pour l’approximation de la loi a posteriori des réseaux de neurones bayésiens. Cependant, lorsque la largeur des couches tend vers l’infini, l’approximation en champ moyen opérée au niveau de la loi des paramètres du réseau conduit à une loi prédictive (au niveau de la fonction) a posteriori qui se rapproche de la loi prédictive a priori plutôt que de la vraie loi a posteriori. Intuitivement, cela résulte d’une régularisation induite par le problème d’inférence variationnelle qui est trop forte. Pour y remédier, on emploie une approche bayésienne généralisée en remplaçant la vraisemblance p(Y|θ) par p(Y|θ)^λ avec λ>1. Cela modifie l’énergie libre, réduisant le terme de régularisation d'un facteur 1/λ. On étudie ce phénomène dans le cas d’un réseau de neurones linéaire à deux couches avec un a priori gaussien. On démontre alors que si la loi variationnelle en champ moyen approche cette loi postérieure généralisée au niveau des paramètres, la loi prédictive a posteriori s’approche désormais de la vraie loi a posteriori (définie avec la vraie vraisemblance) si la température inverse λ est bien choisie.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English