Linkage Disequilibrium - Aware Optimal Transport for Trans-Ethnic Polygenic Scores
Polygenic Scores (PGS) often suffer a "portability penalty", with predictive accuracy dropping up to 80% in non-European populations due to evolutionary divergence in Linkage Disequilibrium (LD) and allele frequencies. We propose a novel domain adaptation framework using LD-aware Optimal Transport (OT) to align genetic distributions across ancestries. Unlike linear re-weighting, our approach utilizes a Fused OT objective to geometrically map the source (European) feature space to target populations. We explicitly model independent LD blocks as probability distributions, minimizing a fused cost function that balances statistical allele frequency matching with the preservation of local LD geometric structures. Using Pan-UK Biobank GWAS data, we show that OT-based alignment corrects for non-linear genetic shifts. This geometric framework improves polygenic risk transferability, providing a robust statistical solution to reduce ancestry-based disparities in precision medicine.
Transport optimal prenant en compte le déséquilibre de liaison pour les scores polygéniques transethniques
Les scores polygéniques (PGS) souffrent souvent d'une « pénalité de transférabilité », avec une précision prédictive chutant jusqu'à 80 % dans les populations non européennes en raison de la divergence évolutive du déséquilibre de liaison (LD) et des fréquences alléliques. Nous proposons un nouveau cadre d'adaptation de domaine utilisant le transport optimal (OT) prenant en compte le LD pour aligner les distributions génétiques entre les différentes ascendances. Contrairement au repondérage linéaire, notre approche utilise un objectif de transport optimal fusionné (Fused OT) pour projeter géométriquement l'espace des caractéristiques de la source (européenne) vers les populations cibles. Nous modélisons explicitement des blocs de LD indépendants comme des distributions de probabilité, en minimisant une fonction de coût fusionnée qui équilibre la correspondance statistique des fréquences alléliques avec la préservation des structures géométriques locales du LD. En utilisant les données de GWAS du Pan-UK Biobank, nous démontrons que l'alignement basé sur l'OT corrige les décalages génétiques non linéaires. Ce cadre géométrique améliore la transférabilité du risque polygénique, offrant une solution statistique robuste pour réduire les disparités liées à l'ascendance en médecine de précision.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais