Aller au contenu principal
Data Source
Dr. Raymond Lam, GlaxoSmithKline, Toronto, Ontario, Canada
Organizer
Dr. Peggy Ng Atkinson Faculty of Liberal and Professional Studies Associate Professor in Management Science and Applied Statistics York University, Toronto

Introduction

Les gènes contribuent au développement et à l’évolution des maladies et elles influencent la façon dont les individus réagissent à tel ou tel médicament. Chez GlaxoSmithKline (GSK), nous menons actuellement des recherches en génétique et en génomique qui permettront à la collectivité médicale de prescrire le médicament qui convient le mieux à chaque patient.
 

Dans le cadre des études scientifiques en génétique, on collecte souvent des centaines ou des milliers de marqueurs génétiques et un grand nombre d’autres mesures cliniques. Les outils statistiques sont essentiels pour distinguer les vrais gènes des fausses alertes.

 

Research Question

Pour les besoins de cette étude de cas, un ensemble de données génétiques a été généré sur la base d’un modèle génétique complexe mis au point chez. Celui-ci inclut 500 variables explicatives (483 marqueurs génétiques et 17 co-variables cliniques). Le but est d’identifier les vrais variables explicatives parmi les 500 variables et de contrôler le taux de fausses découvertes. L’objectif est donc double :

  1. Identifier les vrais gènes et co-variables cliniques.
  2. Contrôler les fausses découvertes (nombre de vrais X par rapport au nombre de faux X identifiés).

Variables

Le fichier de données (un fichier ascii tabulé par espaces) contient 500 observations (sujets) et 501 variables. Parmi les 500 sujets, 250 souffraient d’hypotension et 250 d’hypertension. Les 501 variables incluent une variable-réponse (tension artérielle systolique) et 500 variables explicatives (17 co-variables cliniques et 483 marqueurs génétiques). Ces variables sont décrites ci-dessous.
 

Table 1: Les Attributs de Cette Etude
 

Variable Description
Tension artérielle systolique (TAS) Variable-réponse continue
Sexe Variable binaire : 
M = Mâle, F = Femelle
Statut marital Variable binaire : 
Y = Marié, N = Non marié
Fumeur / non-fumeur Variable binaire : 
Y = Fumeur, N = Non-fumeur
Âge Variable continue (années)
Poids Variable continue (livres)
Taille Variable continue (pouces)
Indice de masse corporelle (IMC) Variable continue : 
(Poids/Taille2) x 703
Obésité Variable nominale :
1 = Normal, 2 = Surcharge pondérale, 3 = Obèse.
Race Variable nominale prenant les valeurs 1, 2, 3, ou 4.
Niveau d’exercice Categorical variable: 
1 = Faible, 2 = Moyen, 3 = élevé
Consommation d’alcool Variable nominale : 
1 = Faible, 2 = Moyen, 3 = élevé
Niveau de stress Variable nominale : 
1 = Faible, 2 = Moyen, 3 = élevé
Consommation de sel (NaCl) Variable nominale : 
1 = Faible, 2 = Moyen, 3 = élevé
Potentiel de procréation Variable nominale : 
1 = Mâle, 2 = Femelle capable, 3 = Femelle incapable
Niveau de revenu Variable nominale : 
1 = Faible, 2 = Moyen, 3 = élevé
Niveau d’éducation Variable nominale : 
1 = Faible, 2 = Moyen, 3 = élevé
Traitement (de l’hypertension) Variable binaire : 
Y = Traité, N = Non traité
483 marqueurs génétiques 0_0, 0_1, 1_1
 
References
  • Scottish Intercollegiate Guidelines Network (SIGN) (January 2001). Hypertension in Older People.
  • National Institutes of Health, ‘National Heart, Lung, and Blood Institute’ (nhlbi.nih.gov). 
    Lowering Blood Pressure
  • Hyman, D.J., and Valory, N.P. (2001). Characteristics of Patients with Uncontrolled Hypertension in the United States. 
    The New England Journal of Medicine, Volume 345, No. 7, p 479-486.