PCA++: How Uniformity Induces Robustness to Background Noise in Contrastive Learning

High-dimensional data often contain low-dimensional signals obscured by structured background noise, which limits the effectiveness of standard PCA. Motivated by contrastive learning, we address the problem of recovering shared signal subspaces from positive pairs, paired observations sharing the same signal but differing in background. Our baseline, PCA+, uses alignment-only contrastive learning and succeeds when background variation is mild, but fails under strong noise or high-dimensional regimes. To address this, we introduce PCA++, a hard uniformity-constrained contrastive PCA that enforces identity covariance on projected features. PCA++ has a closed-form solution via a generalized eigenproblem, remains stable in high dimensions, and provably regularizes against background interference. We derive exact high-dimensional asymptotics in both fixed-aspect-ratio and growing-spike regimes, showing uniformity’s role in robust signal recovery.

ACP++ : comment l’uniformité favorise la robustesse au bruit de fond en apprentissage contrastif

Les données de haute dimension contiennent souvent des signaux de faible dimension masqués par un bruit de fond structuré, ce qui limite l'efficacité de l'ACP standard. En nous basant sur l'apprentissage contrastif, nous abordons le problème de la récupération de sous-espaces de signaux partagés à partir de paires positives, c'est-à-dire des observations appariées partageant le même signal, mais différant par leur bruit de fond. Notre méthode de référence, ACP+, utilise un apprentissage contrastif basé uniquement sur l'alignement et fonctionne lorsque la variation du bruit de fond est faible, mais échoue face à un bruit élevé ou dans des régimes de haute dimension. Pour remédier à cela, nous présentons ACP++, une ACP contrastive sous contrainte stricte d'uniformité qui impose une matrice de covariance d'identité aux caractéristiques projetées. ACP++ possède une solution analytique par l'entremise d'un problème aux valeurs propres généralisé, reste stable en haute dimension et offre une régularisation mathématiquement prouvée contre les interférences du bruit de fond. Nous établissons les comportements asymptotiques exacts en haute dimension dans des régimes à rapport dimension-échantillon fixe (fixed-aspect-ratio) ainsi qu'à « pic croissant » (growing-spike), démontrant ainsi le rôle de l'uniformité dans la récupération robuste du signal.

Session

Recent Advances on the Challenges of Statistical Learning

Date and Time

Tue, 06/02/2026 - 13:30 - Tue, 06/02/2026 - 14:00

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English