Étude de cas #2: Les données d’expression génique permettent-elles d’identifier les patients souffrant de maladies intestinales inflammatoires?

2017

Date Source: 

Global gene expression data, IBD candidate genes

Organizer: 

Pingzhao Hu

 

Contexte : La maladie intestinale inflammatoire (MII), qui inclut les deux entités morbides que sont la maladie de Crohn (MC) et la colite ulcéreuse (CU), est une maladie gastro-intestinale incurable qui provoque une inflammation chronique. La MII nuit considérablement à la qualité de vie des patients. Environ 1,5 millions de personnes souffrent de MII aux États-Unis et au Canada, où les taux sont parmi les plus élevés au monde. Actuellement, il n’existe aucun biomarqueur pour la MII qui puisse permettre d’identifier de meilleurs traitements et d’individualiser la prise en charge des patients. De tels biomarqueurs pourraient aussi faciliter la réalisation d’essais cliniques pour de nouveaux médicaments. Récemment, les études d’association pangémique (GWAS) ont considérablement amélioré notre compréhension de l’importance que joue la prédisposition génétique dans la MII. Ces études ont identifié un total de 201 locus correspondant à la MII (Liu et al. 2015). Cependant, ces locus n’ont permis d’identifier qu’un petit nombre de gènes candidats qui n’ont souvent que peu d’effets contributifs à la MII. 

 

Research Question: 

 

L’objectif de cette étude de cas est de construire des classificateurs pour la MII à l’aide de données d’expression génique globales basées sur ces gènes candidats. Les questions de recherche sont les suivantes :

  1. Certaines fonctions de données (par exemple, variables ou ensembles de sondes ou gènes) peuvent-elles être utilisées pour regrouper les individus en trois groupes biologiques (individus sains, patients souffrant de MC, patients souffrant de CU)? 
  2. Certaines fonctions de données (par exemple, variables ou ensembles de sondes ou gènes) peuvent-elles prédire l’état pathologique d’individus de trois groupes biologiques (individus sains, patients souffrant de MC, patients souffrant de CU)?

Variables: 


Voir ci-dessous la description des variables: 
 

Sources de données:

 


Données d’expression génique globales : Burczynski et al. (2006) ont généré des profils d’expression génique pan-génomiques pour 41 individus sains (notez que les données traitées n’incluent que 41 individus, tandis que l’étude originale en comptait 42), 59 patients souffrant de MC et 26 patients souffrant de CU à l’aide de la puce GeneChip Affymetrix HG-U133A human. Cette puce GeneChip contient environ 22 000 ensembles de sondes (chaque gène peut correspondre à plusieurs ensembles de sondes). Le niveau d’expression de chaque ensemble de sondes pour chaque individu a été quantifié à l’aide du logiciel MAS 5.0 (nous avons téléchargé les données traitées de ArrayExpress: E-GEOD-3365). 


Gènes candidats pour la MII : Les gènes candidats pour la MII apparaissant dans les 201 locus associés à la MII ont été évalués à l’aide des outils logiciels GRAIL (Gene Relationships across Implicated Loci) et DAPPLE (Disease Association Protein-Protein Link Evaluator). Un total de 225 gènes uniques (voir le Tableau supplémentaire 9 de Liu et al. 2015) ont ainsi été identifiés; 185 de ces 225 gènes sont sur la puce GeneChip Affymetrix HG-U133A human. Ces 185 gènes candidats incluent 309 ensembles de sondes.

 

 

Data Access: 

 

Deux fichiers seront utilisés pour cet étude de cas:

IBDMatchedGenes (Feuille 2): La première colonne contient les noms des 309 ensembles de sondes (ou fonctions de données). La seconde colonne contient les symboles de 185 gènes uniques. Certains gènes incluent deux ou plus ensembles de sondes. L’analyse peut être effectuée au niveau de l’ensemble de sondes ou au niveau des gènes.

 

IBDGeneExpression (Feuille 1) : Dans ce jeu de données, les lignes correspondent aux ensembles de sondes et les colonnes représentent 126 individus. La première colonne contient les noms des ensembles de sondes et la première ligne contient les ID de patients. Le groupe biologique de chacun des 126 individus est indiqué dans leur ID. 


 

Data Files: 

References: 

 

Liu JZ, van Sommeren S, Huang H, et al. Association analyses identify 38 susceptibility loci for inflammatory bowel disease and highlight shared genetic risk across populations. Nat Genet. 47(9):979-86 (2015).


Ron LP, Natalie CT, Krystyna AZ, et al. Molecular classification of Crohn's disease and ulcerative colitis patients using transcriptional profiles in peripheral blood mononuclear cells. Michael E Burczynski, J Mol Diagn 8(1):51-61 (2006).


Ambroise C, McLachlan GJ. Selection bias in gene extraction on the basis of microarray gene-expression data. Proc Natl Acad Sci USA. 99(10):6562-6 (2002).


Dupuy A, Simon RM. Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting. J Natl Cancer Inst. 99(2):147-57 (2007).