Statistical Aspects of Trustworthy Machine Learning

This talk presents a unified statistical perspective on trustworthy machine learning, focusing on robustness, privacy, and inference in dynamic environments. First, we develop a framework for smoothed quantile regression with streaming data, enabling efficient and statistically valid inference using renewable summaries and adaptive debiasing. Second, we extend the scope of Gaussian differential privacy (GDP) to Riemannian manifolds, introducing Riemannian Gaussian mechanisms and new calibration techniques that preserve utility in nonlinear data spaces. Finally, we explore distributional reinforcement learning through a regularized Wasserstein framework using Sinkhorn divergence. We establish theoretical contraction properties and demonstrate empirical gains over traditional methods. These contributions demonstrate how modern statistical tools—asymptotic theory, privacy formalism, and optimal transport—can advance transparent, private, and reliable machine learning systems.

Aspects statistiques d'un apprentissage automatique fiable

Cet exposé présente une perspective statistique unifiée sur l'apprentissage automatique fiable, en mettant l'accent sur la robustesse, la confidentialité et l'inférence dans des environnements dynamiques. Tout d'abord, nous développons un cadre pour la régression quantile lissée avec des données en continu, permettant une inférence efficace et statistiquement valide grâce à des résumés renouvelables et un débiasage adaptatif. Ensuite, nous étendons le champ d'application de la confidentialité différentielle gaussienne (GDP) aux variétés riemanniennes, en introduisant des mécanismes gaussiens riemanniens et de nouvelles techniques d'étalonnage qui préservent l'utilité dans les espaces de données non linéaires. Enfin, nous explorons l'apprentissage par renforcement distributionnel grâce à un cadre de Wasserstein régularisé utilisant la divergence de Sinkhorn. Nous établissons des propriétés de contraction théorique et démontrons des gains empiriques par rapport aux méthodes traditionnelles. Ces contributions démontrent comment les outils statistiques modernes – théorie asymptotique, formalisme de confidentialité et transport optimal – peuvent faire progresser les systèmes d'apprentissage automatique transparents, privés et fiables.

Session

CRM-SSC Prize in Statistics Invited Address

Date and Time

Wed, 05/28/2025 - 08:30 - Wed, 05/28/2025 - 09:50

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

Bilingual