Introduction
Les gènes contribuent au développement et à l’évolution des maladies et elles influencent la façon dont les individus réagissent à tel ou tel médicament. Chez GlaxoSmithKline (GSK), nous menons actuellement des recherches en génétique et en génomique qui permettront à la collectivité médicale de prescrire le médicament qui convient le mieux à chaque patient.
Dans le cadre des études scientifiques en génétique, on collecte souvent des centaines ou des milliers de marqueurs génétiques et un grand nombre d’autres mesures cliniques. Les outils statistiques sont essentiels pour distinguer les vrais gènes des fausses alertes.
Pour les besoins de cette étude de cas, un ensemble de données génétiques a été généré sur la base d’un modèle génétique complexe mis au point chez. Celui-ci inclut 500 variables explicatives (483 marqueurs génétiques et 17 co-variables cliniques). Le but est d’identifier les vrais variables explicatives parmi les 500 variables et de contrôler le taux de fausses découvertes. L’objectif est donc double :
- Identifier les vrais gènes et co-variables cliniques.
- Contrôler les fausses découvertes (nombre de vrais X par rapport au nombre de faux X identifiés).
Le fichier de données (un fichier ascii tabulé par espaces) contient 500 observations (sujets) et 501 variables. Parmi les 500 sujets, 250 souffraient d’hypotension et 250 d’hypertension. Les 501 variables incluent une variable-réponse (tension artérielle systolique) et 500 variables explicatives (17 co-variables cliniques et 483 marqueurs génétiques). Ces variables sont décrites ci-dessous.
Table 1: Les Attributs de Cette Etude
Variable | Description |
---|---|
Tension artérielle systolique (TAS) | Variable-réponse continue |
Sexe | Variable binaire : M = Mâle, F = Femelle |
Statut marital | Variable binaire : Y = Marié, N = Non marié |
Fumeur / non-fumeur | Variable binaire : Y = Fumeur, N = Non-fumeur |
Âge | Variable continue (années) |
Poids | Variable continue (livres) |
Taille | Variable continue (pouces) |
Indice de masse corporelle (IMC) | Variable continue : (Poids/Taille2) x 703 |
Obésité | Variable nominale : 1 = Normal, 2 = Surcharge pondérale, 3 = Obèse. |
Race | Variable nominale prenant les valeurs 1, 2, 3, ou 4. |
Niveau d’exercice | Categorical variable: 1 = Faible, 2 = Moyen, 3 = élevé |
Consommation d’alcool | Variable nominale : 1 = Faible, 2 = Moyen, 3 = élevé |
Niveau de stress | Variable nominale : 1 = Faible, 2 = Moyen, 3 = élevé |
Consommation de sel (NaCl) | Variable nominale : 1 = Faible, 2 = Moyen, 3 = élevé |
Potentiel de procréation | Variable nominale : 1 = Mâle, 2 = Femelle capable, 3 = Femelle incapable |
Niveau de revenu | Variable nominale : 1 = Faible, 2 = Moyen, 3 = élevé |
Niveau d’éducation | Variable nominale : 1 = Faible, 2 = Moyen, 3 = élevé |
Traitement (de l’hypertension) | Variable binaire : Y = Traité, N = Non traité |
483 marqueurs génétiques | 0_0, 0_1, 1_1 |
- Scottish Intercollegiate Guidelines Network (SIGN) (January 2001). Hypertension in Older People.
- National Institutes of Health, ‘National Heart, Lung, and Blood Institute’ (nhlbi.nih.gov).
Lowering Blood Pressure - Hyman, D.J., and Valory, N.P. (2001). Characteristics of Patients with Uncontrolled Hypertension in the United States.
The New England Journal of Medicine, Volume 345, No. 7, p 479-486.