Aller au contenu principal
High-Dimensional Limit Theorems for Preconditioned Stochastic Gradient Descent
Preconditioned stochastic gradient descent (SGD) algorithms (e.g., Adam, AdaGrad, Muon) are cornerstones of high-dimensional optimization. To understand their success, we rigorously derive high-dimensional scaling limits for a broad class of preconditioned SGD methods. In the regime where data and parameter dimensions diverge as the step size vanishes, we prove that their dynamics converge to a limiting diffusion process. A critical step-size scaling reveals high-dimensional artifacts deflecting empirical trajectories from the idealized population gradient flow. Crucially, we establish that preconditioning induces an implicit regularization effect absent in classical SGD: it systematically attenuates high-dimensional noise in the critical regime, shifting the stationary points towards the population optimum. Furthermore, our theory enables the principled design of novel preconditioners that amplify this regularization, thereby surmounting high-dimensional barriers to learning.
Théorèmes limites en grande dimension pour la descente de gradient stochastique préconditionnée
Les algorithmes de descente de gradient stochastique (SGD) préconditionnée (par exemple, Adam, AdaGrad, Muon) sont des pierres angulaires de l'optimisation en grande dimension. Afin de comprendre leur succès, nous établissons rigoureusement des limites d'échelle en grande dimension pour une large classe de méthodes SGD préconditionnées. Dans le régime où les dimensions des données et des paramètres tendent vers l'infini alors que le pas d'apprentissage tend vers zéro, nous prouvons que leur dynamique converge vers un processus de diffusion limite. Une mise à l'échelle critique du pas d'apprentissage révèle des artéfacts liés à la grande dimension qui dévient les trajectoires empiriques du flot de gradients populationnels idéalisé. Fait crucial, nous établissons que le préconditionnement induit un effet de régularisation implicite absent de la SGD classique : il atténue systématiquement le bruit de grande dimension dans le régime critique, déplaçant ainsi les points stationnaires vers l'optimum populationnel. En outre, notre théorie permet la conception rigoureuse de nouveaux préconditionneurs qui amplifient cette régularisation, permettant ainsi de surmonter les obstacles à l'apprentissage en grande dimension.
Date and Time
-
Co-auteurs (non y compris vous-même)
Aukosh Jagannath
University of Waterloo
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
Varnan Sarangian University of Waterloo