High-Dimensional Limit Theorems for Preconditioned Stochastic Gradient Descent

Preconditioned stochastic gradient descent (SGD) algorithms (e.g., Adam, AdaGrad, Muon) are cornerstones of high-dimensional optimization. To understand their success, we rigorously derive high-dimensional scaling limits for a broad class of preconditioned SGD methods. In the regime where data and parameter dimensions diverge as the step size vanishes, we prove that their dynamics converge to a limiting diffusion process. A critical step-size scaling reveals high-dimensional artifacts deflecting empirical trajectories from the idealized population gradient flow. Crucially, we establish that preconditioning induces an implicit regularization effect absent in classical SGD: it systematically attenuates high-dimensional noise in the critical regime, shifting the stationary points towards the population optimum. Furthermore, our theory enables the principled design of novel preconditioners that amplify this regularization, thereby surmounting high-dimensional barriers to learning.

Théorèmes limites en grande dimension pour la descente de gradient stochastique préconditionnée

Les algorithmes de descente de gradient stochastique (SGD) préconditionnée (par exemple, Adam, AdaGrad, Muon) sont des pierres angulaires de l'optimisation en grande dimension. Afin de comprendre leur succès, nous établissons rigoureusement des limites d'échelle en grande dimension pour une large classe de méthodes SGD préconditionnées. Dans le régime où les dimensions des données et des paramètres tendent vers l'infini alors que le pas d'apprentissage tend vers zéro, nous prouvons que leur dynamique converge vers un processus de diffusion limite. Une mise à l'échelle critique du pas d'apprentissage révèle des artéfacts liés à la grande dimension qui dévient les trajectoires empiriques du flot de gradients populationnels idéalisé. Fait crucial, nous établissons que le préconditionnement induit un effet de régularisation implicite absent de la SGD classique : il atténue systématiquement le bruit de grande dimension dans le régime critique, déplaçant ainsi les points stationnaires vers l'optimum populationnel. En outre, notre théorie permet la conception rigoureuse de nouveaux préconditionneurs qui amplifient cette régularisation, permettant ainsi de surmonter les obstacles à l'apprentissage en grande dimension.

Session

Concours pour le Prix de la meilleure présentation orale de recherche étudiante en probabilité

Date and Time