Aller au contenu principal
Data Source
Canadian Health Measures Survey
Organizer
Tracey Bushnik

 

Background:

 

The Canadian Health Measures Survey (CHMS) is an ongoing national health survey that involves: 1) a household interview that gathers general demographic and socio-economic data and detailed health, nutrition and lifestyle information, and 2) an interview at a mobile examination clinic (MEC) where direct physical measurements are taken, including collection of blood and urine samples.  The target population are those aged 3 to 79 living in the ten provinces.  The CHMS is designed to produce reliable estimates at the national level for the age group 3-5 males and females combined, and by sex for the age groups 6-11, 12-19, 20-39, 40-59 and 60-79. 
 
The CHMS requires the MEC to travel around the country to collect the direct measures, resulting in a unique sample design in which survey respondents are selected from dwellings within collection sites within regions.  The dataset provided for this case study reflects data collected from individuals aged 20 to 79, from 16 collection sites within 5 regional strata: 2 sites from the Atlantic region, 4 sites from the Quebec region, 6 sites from the Ontario region, 2 sites from the Prairies region, and 2 sites from the British Columbia region.
 
While the small number of sampled collection sites can produce national baseline prevalence estimates, it has the drawback of leaving at most 11 “degrees of freedom”  for variance estimation. Limited degrees of freedom have several consequences for analysis and inference , in particular:
  • The variability of variance estimates of estimated quantities needs to be taken into account when doing analyses,
  • Estimated covariance matrices of vectors of estimates (such as the vector of estimated coefficients of a model) could be singular or close to singular, thus possibly not invertible 
  • It may not be possible to calculate some test statistics,
  • The usual asymptotic distributions of many test statistics may not hold when there are only a small number of primary sampling units (PSUs), in this case the collection sites in the sample, even when the total sample size is large
  • The number of parameters in a regression model are limited to 10, as one degree of freedom is used to estimate the intercept
  • Analytical methods that are less impacted by the limited degrees of freedom, or are conservative, should be considered such as: Satterthwaite-adjusted statistics or Bonferroni tests.
The CHMS produces a survey weight and 500 bootstrap weights, the former to produce estimates that are representative of the Canadian population, and the latter for appropriate variance estimation given the CHMS’ complex survey design.
 
Research Question
Le but de cette étude de cas est d’évaluer si le fait d’utiliser ou non les détails de plan de sondage a un impact ou non sur la production d’estimations concernant la population canadienne à partir de l’ECMS. Pour cela, les participants devront utiliser les données synthétiques de l’ECMS pour estimer la prévalence et divers facteurs de risque associés à l’hypertension au Canada.
 
Questions à examiner :
  • Quels facteurs de risque sont associés à l’hypertension? Ces associations tiennent-elles indépendamment de la présence des détails de plan de sondage (poids d’enquête, poids bootstrap, spécification des 11 degrés de liberté)?
  • La prévalence de l’hypertension et les facteurs de risque sélectionnés varient-ils selon le sexe? Selon la tranche d’âge? Comment votre interprétation de ces résultats change-t-elle lorsque l’analyse est exécutée avec et sans les détails de plan de sondage?
  • Comment résumeriez-vous l’impact du fait d’inclure ou non les détails de plan de sondage dans votre analyse? Avez-vous constaté un impact plus important pour certaines estimations par rapport à d’autres? 
Variables

 

Source de données :Un fichier de données synthétique qui représente le Cycle 3 de l’ECMS est fourni pour cette étude de cas. Celui-ci inclut 3 060 enregistrements pour des individus âgés de 20 à 79 ans. Pour certains répondants, des valeurs manquent pour certaines variables. Bien que la répartition générale des valeurs de chaque variable ressemble à celle des données réelles de l’ECMS, notez que ce fichier synthétique produit des résultats synthétiques.

Fichier synthétique

Nombre d’enregistrements :
3,060

Nombre de variables : 509

 

Nom de variable

Description

CLINICID

Identifiant unique.

SMK_12

Statut de tabagisme actuel : 1 quotidien; 2 occasionnel; 3 non-fumeur.

 

CLC_SEX

Sexe lors de la visite en clinique : 1 homme, 2 femme.

 

CLC_AGE

Âge en années lors de la visite en clinique : 20 à 79.

HWMDBMI

Indice de masse corporelle en kg/m2. Fondé sur la taille et le poids mesurés. Gamme de valeurs : 11,56 à 49,35.

HIGHBP

Catégorisé hypertendu : 1 oui, 2 non. Un répondant est catégorisé hypertendu s’il/elle présente une PAS >= 140 mmHg ou une PAD >=90 mmHg ou s’il/elle est traité(e) pour hypertension (prise de médicaments et/ou diagnostiqué(e) par un professionnel de la santé au cours des six derniers mois).

LAB_BCD

Cadmium sanguin en nmol/L. Gamme de valeurs valables : 0,71 à 47. La valeur 999,5 indique que la valeur était inférieure à la limite de détection (LD) pour le répondant en question.

LAB_BHG

Mercure sanguin en nmol/L. Gamme de valeurs valables : 2,1 à 100. La valeur 999,5 indique que la valeur était inférieure à la LD pour le répondant en question.

WGT_FULL

Poids d’enquête

BSW1---BSW500

Poids bootstrap

 

Data Access

Les données ont été fournies dans un fichier .csv. Veuillez écrire à lisa.lix@umanitoba.ca si vous souhaitez obtenir le fichier .zip. 


Organisatrice : 

Tracey Bushnik
Analyste de recherche principale
Division de l’analyse de la santé
Statistique Canada
 

Courriel : tracey.bushnik@canada.ca
Téléphone : 613 854-7906


  1. On utilise « degrés de liberté » comme terme générique pour refléter la quantité d’information utilisée pour estimer les variances et covariances. On utilise souvent comme approximation de la valeur des « degrés de liberté » le nombre d’UPE – le nombre de strates. Pour le cycle 3 de l’ECMS, il y a 16 sites de collecte (UPE) et 5 régions (strates), soit 11 degrés de liberté (16-5). C’est là une estimation approximative des degrés de liberté qui ne donne qu’une valeur maximale.
  2. En particulier, les intervalles de confiance et les tests d’hypothèses.
  3. Les matrices de covariance inversibles sont nécessaires pour effectuer les tests de Wald tests sur les vecteurs de paramètres.
Data Files