Étude de cas 1 : Les détails de plan de sondage sont-elles importantes?

2018

Date Source: 

Canadian Health Measures Survey

Organizer: 

Tracey Bushnik

 

Contexte:

 

L’Enquête canadienne sur les mesures de la santé (ECMS) est une enquête sur la santé nationale permanente qui inclut : 1) une enquête ménage qui permet de recueillir des données démographiques et socioéconomiques générales et des informations détaillées sur la santé, l’alimentation et le mode de vie, et 2) un entretien en clinique d’examen mobile (CEM) où des mesures physiques directes sont prises, dont la collecte d’échantillons de sang et d’urine. L’enquête cible la population des personnes âgées de 3 à 79 ans, dans les dix provinces. L’ECMS est conçue pour produire des estimations fiables au niveau national pour les enfants de 3 à 5 ans (garçons et filles pris ensemble) et par sexe pour les tranches d’âge 6-11 ans, 12-19 ans, 20-39 ans, 40-59 ans et 60-79 ans. 

Dans le cadre de l’ECMS, des CEM parcourent le pays pour recueillir les mesures directes, donnant lieu à un plan de sondage unique où les répondants à l’enquête sont sélectionnés de logements situés dans les sites de collecte de chaque région. L’ensemble de données fourni aux fins de cette étude de cas reflète les données collectées auprès d’individus âgés de 20 à 79 ans, sur 16 sites de collecte répartis dans cinq strates régionales : 2 sites de la région Atlantique, 4 sites de la région Québec, 6 sites de la région Ontario, 2 sites de la région Prairies et 2 sites de la région Colombie-Britannique.

Bien que le petit nombre de sites de collecte échantillonnés permette de produire des estimations nationales initiales de prévalence, ce système présente l’inconvénient de conserver au plus 11 « degrés de liberté »  pour l’estimation de la variance. Or la limitation des degrés de liberté a plusieurs conséquences sur l’analyse et l’inférence , entre autres :
  • Il faut, lors de l’analyse, tenir compte de la variabilité des estimations de la variance des quantités estimées,
  • Il se peut que les matrices de covariance estimées des vecteurs d’estimations (tel le vecteur des coefficients estimés du modèle) soient singulières ou presque, et donc qu’elles ne soient pas forcément inversibles ,
  • Il se peut qu’il ne soit pas toujours possible de calculer certaines statistiques de test,
  • Il se peut que les distributions asymptotiques habituelles de certaines statistiques de test ne tiennent pas en raison du petit nombre d’unités primaires d’échantillonnage (UPE), ici les sites de collecte, même si la taille totale de l’échantillon est assez grande,
  • Le nombre de paramètres dans un modèle de régression est limité à 10, car on utilise un degré de liberté pour estimer l’interception,
  • Il faut considérer des méthodes analytiques qui sont moins affectées par le petit nombre de degrés de liberté, par exemple les statistiques ajustées de Satterthwaite ou les tests de Bonferroni.


L’ECMS produit un poids d’enquête et 500 poids bootstrap, le premier permettant de produire des estimations représentatives de la population canadienne et les derniers pour une estimation de la variance appropriée, au vu du plan d’enquête complexe de l’ECMS.

 

Research Question: 

Le but de cette étude de cas est d’évaluer si le fait d’utiliser ou non les détails de plan de sondage a un impact ou non sur la production d’estimations concernant la population canadienne à partir de l’ECMS. Pour cela, les participants devront utiliser les données synthétiques de l’ECMS pour estimer la prévalence et divers facteurs de risque associés à l’hypertension au Canada.
 
Questions à examiner :
  • Quels facteurs de risque sont associés à l’hypertension? Ces associations tiennent-elles indépendamment de la présence des détails de plan de sondage (poids d’enquête, poids bootstrap, spécification des 11 degrés de liberté)?
  • La prévalence de l’hypertension et les facteurs de risque sélectionnés varient-ils selon le sexe? Selon la tranche d’âge? Comment votre interprétation de ces résultats change-t-elle lorsque l’analyse est exécutée avec et sans les détails de plan de sondage?
  • Comment résumeriez-vous l’impact du fait d’inclure ou non les détails de plan de sondage dans votre analyse? Avez-vous constaté un impact plus important pour certaines estimations par rapport à d’autres? 

Variables: 

 

Source de données :Un fichier de données synthétique qui représente le Cycle 3 de l’ECMS est fourni pour cette étude de cas. Celui-ci inclut 3 060 enregistrements pour des individus âgés de 20 à 79 ans. Pour certains répondants, des valeurs manquent pour certaines variables. Bien que la répartition générale des valeurs de chaque variable ressemble à celle des données réelles de l’ECMS, notez que ce fichier synthétique produit des résultats synthétiques.

Fichier synthétique

Nombre d’enregistrements :
3,060

Nombre de variables : 509

 

Nom de variable

Description

CLINICID

Identifiant unique.

SMK_12

Statut de tabagisme actuel : 1 quotidien; 2 occasionnel; 3 non-fumeur.

 

CLC_SEX

Sexe lors de la visite en clinique : 1 homme, 2 femme.

 

CLC_AGE

Âge en années lors de la visite en clinique : 20 à 79.

HWMDBMI

Indice de masse corporelle en kg/m2. Fondé sur la taille et le poids mesurés. Gamme de valeurs : 11,56 à 49,35.

HIGHBP

Catégorisé hypertendu : 1 oui, 2 non. Un répondant est catégorisé hypertendu s’il/elle présente une PAS >= 140 mmHg ou une PAD >=90 mmHg ou s’il/elle est traité(e) pour hypertension (prise de médicaments et/ou diagnostiqué(e) par un professionnel de la santé au cours des six derniers mois).

LAB_BCD

Cadmium sanguin en nmol/L. Gamme de valeurs valables : 0,71 à 47. La valeur 999,5 indique que la valeur était inférieure à la limite de détection (LD) pour le répondant en question.

LAB_BHG

Mercure sanguin en nmol/L. Gamme de valeurs valables : 2,1 à 100. La valeur 999,5 indique que la valeur était inférieure à la LD pour le répondant en question.

WGT_FULL

Poids d’enquête

BSW1---BSW500

Poids bootstrap

 

Data Access: 

Les données ont été fournies dans un fichier .csv. Veuillez écrire à lisa.lix@umanitoba.ca si vous souhaitez obtenir le fichier .zip. 


Organisatrice : 

Tracey Bushnik
Analyste de recherche principale
Division de l’analyse de la santé
Statistique Canada
 

Courriel : tracey.bushnik@canada.ca
Téléphone : 613 854-7906


  1. On utilise « degrés de liberté » comme terme générique pour refléter la quantité d’information utilisée pour estimer les variances et covariances. On utilise souvent comme approximation de la valeur des « degrés de liberté » le nombre d’UPE – le nombre de strates. Pour le cycle 3 de l’ECMS, il y a 16 sites de collecte (UPE) et 5 régions (strates), soit 11 degrés de liberté (16-5). C’est là une estimation approximative des degrés de liberté qui ne donne qu’une valeur maximale.
  2. En particulier, les intervalles de confiance et les tests d’hypothèses.
  3. Les matrices de covariance inversibles sont nécessaires pour effectuer les tests de Wald tests sur les vecteurs de paramètres.

Data Files: