Biomarqueurs protéomiques et états pathologiques

2009

Date Source: 

Rob Balshaw of Syreon Corporation

Organizer: 

Alison Gibbs, Department of Statistics, University of Toronto

Contexte

Un biomarqueur est un ou plusieurs paramètres biologiques associés à la présence et à la gravité d’un état de maladie spécifique. Les biomarqueurs peuvent être détectés et mesurés grâce à une variété de méthodes, dont l’examen physique, les analyses en laboratoire et l’imagerie médicale. La protéomique est l’étude à grande échelle des protéines. Dans la présente étude de cas, nous cherchons à apprendre si nous pouvons correctement identifier l’état de maladie d’un patient avec un biomarqueur protéomique. En d’autres termes, un test médical agressif et couteux peut-il être remplacé par un test sanguin?
 

Nous avons prélevé plusieurs centaines d’échantillons sanguins auprès de patients souffrant d’un état pathologique chronique qui présente deux états : actif et inactif. Vous pouvez vous imaginer cette maladie comme similaire à la sclérose en plaques ou à certaines formes de cancers récurrents. On sait que les patients souffrent d’un problème médical très grave, mais leur état est généralement raisonnablement bénin, sauf occasionnellement quand ils ont une crise. Dans cet état actif, les patients doivent être traités en toute urgence avec des médicaments assez agressifs dont les effets secondaires potentiels sont graves (p. ex., infections virales ou bactériennes graves, atteinte rénale ou hépatique, voire cancer). Malheureusement, la méthode actuellement utilisée pour déterminer l’occurrence d’une crise implique l’examen par un pathologiste d’un échantillon soigneusement traité et prélevé dans les organes internes du patient à l’aide d’une grosse aiguille. Cette méthode d’évaluation est à la fois agressive et couteuse, désagréable pour les patients et lourde pour le système de soins de santé.

Nos données

Notre ensemble de données comprend 11 échantillons de patients actifs, 21 échantillons de patients inactifs, plus 15 échantillons non identifiés (pour lesquels nous n’avons pas indiqué s’ils proviennent de patients actifs ou inactifs). Les échantillons peuvent être traités comme étant indépendants les uns des autres (c.-à-d. qu’ils proviennent chacun de patients différents). Dans l’ensemble de données, le ratio est d’environ deux patients inactifs pour un patient actif, mais sachez qu’en réalité seulement 10 % à 30 % des patients présentent un état actif.

Détermination de la teneur en protéine

L’abondance d’une protéine dans un échantillon sanguin se mesure en comparant sa teneur à celle de cette même protéine dans un échantillon de référence. Une technologie protéomique multiplex, iTRAQ, permet de mesurer les teneurs en protéine relatives.
 

Les échantillons de référence ont été prélevés auprès d’un lot sanguin homogène composé d’échantillons de 16 volontaires en bonne santé. Au moment où nous avons traité nos échantillons, nous disposions de quatre réactifs iTRAQ nous permettant de traiter dans chaque série trois échantillons expérimentaux de patients et un échantillon de référence. Les données iTRAQ sont exprimées sous la forme de ratios entre l’échantillon expérimental et l’échantillon de référence pour chacune des plusieurs centaines de protéines identifiées dans chaque série. Puisque le même échantillon de référence est employé toutes les séries, cette méthode offre une mesure d’abondance relative qui est comparable pour toutes les séries expérimentales. Chaque série de l’expérience peut détecter et mesurer plusieurs centaines de protéines.
 

Voici une brève description du processus de préparation des échantillons qui vous aidera à mieux comprendre les données. Des échantillons sanguins sont prélevés auprès des sujets. Le plasma est tiré de chaque échantillon sanguin par centrifugation, puis séparé en aliquotes et stocké jusqu’au moment de l’analyse protéomique. La teneur en protéine du plasma peut varier sur environ six ordres de grandeur selon la protéine, mais la machine iTRAQ est limitée à une plage dynamique de 100. Nous avons donc ôté de nos échantillons 14 des protéines les plus abondantes pour réduire la plage dynamique et nous permettre de mieux quantifier les protéines plus intéressantes mais moins abondantes. Après ce processus de réduction, les protéines restantes dans chaque échantillon sont digérées (c.-à-d. hachées en fragments de protéines appelés peptides) et les peptides sont marqués à l’aide de l’un de quatre réactifs iTRAQ (marqueurs chimiques de masse moléculaire distincte, mais présentant par ailleurs des propriétés chimiques identiques) pour identifier l’échantillon dont ils proviennent. Les échantillons ainsi marqués sont rassemblés et traités à l’aide d’une technologie MALDI TOF/TOF. L’identification et l’analyse quantitative des peptides se font par le logiciel ProteinPilot™ v2.0, après quoi un résumé détaillé des protéines présentes dans l’échantillon est préparé. La teneur de chaque protéine identifiée est identifiée à l’aide du résumé des teneurs en peptides correspondantes.
 

Le logiciel ne permet pas de déterminer avec précision la teneur en protéines sur la base de la teneur en peptides. Parfois, le processus n’identifie pas une protéine dans un échantillon, alors que celle-ci est présente. Lorsque cela se produit, la teneur de cette protéine manque et si c’est dans l’échantillon de référence que la protéine n’a pas été identifiée, il est impossible d’estimer les teneurs relatives de cette protéine dans les trois échantillons expérimentaux correspondants.

Interprétation de nos données sur l’abondance relative

Supposons que les données relatives à deux patients actifs montrent des niveaux d’abondance relative de 1,2 et de 1,4 pour la protéine X (c.-à-d. que ces patients ont 20 % et 40 % de protéine X de plus que l’échantillon de référence). Et supposons que des valeurs de 1,1 et de 1,3 ont été observées dans des échantillons provenant de deux patients non actifs (c.-à-d. que ces patients ont 10 % et 30 % de protéine X de plus que l’échantillon de référence). Cela semblerait indiquer que les patients dont la maladie est active ont des niveaux de protéine X environ 50 % plus élevés que les patients dont la maladie n’est actuellement pas active.

Valeurs manquantes

NA indique les échantillons pour lesquels l’abondance relative de protéines n’est pas disponible. Notez que cela ne signifie pas forcément que les valeurs d’abondance relative sont faibles. Dans chaque cas, la non-détection de cette valeur peut relever d’un problème d’identification plutôt que du fait que les valeurs « d’abondance absolue » sont inférieures à une limite (inconnue) de quantification.

Anonymat des données

Comme cet ensemble de données est tiré d’une grande étude menée en collaboration avec des partenaires industriels, nous sommes tenus de respecter certains principes de propriété intellectuelle. Nous avons donc rendu anonyme l’ensemble de données en lui affectant des identifiants de protéines arbitraires (de BPG0001 à BPG0460) et en y incluant des échantillons synthétiques créés pour présenter des propriétés similaires à celles des échantillons réels.
 

Nous espérons pouvoir discuter davantage du contexte au printemps 2009 et au congrès de la SSC, mais pour l’instant nous ne pouvons révéler ni la source des données, ni la maladie en question.
 

Research Question: 

Notre objectif à long terme est de remplacer cette méthode d’évaluation agressive et couteuse par un biomarqueur fondé sur la teneur en protéine telle que mesurée par un simple échantillon sanguin. Nous cherchons à mettre au point des méthodes permettant de classifier de nouveaux échantillons comme provenant d’un patient « actif » ou « inactif ».
 

Variables: 

Fichier de données au format CSV

  • Observation
  • Sexe
  • Race
  • État de la maladie
  • Âge
  • Abondance relative pour 460 protéines (de BPG0001 à BPG0460)
     

References: 

We have several publications in preparation and a list of references will be added as they become available.