Acknowledgment: We acknowledge Mr. François Brisebois (Methodology Branch, Statistics Canada) for his support in arranging open access data for all participants. We also thank Dr. Pingzhao Hu (Department of Biochemistry and Medical Genetics, University of Manitoba) and Mr. Brisebois for their feedback in preparing this case study.
Background: The Canadian Community Health Survey (CCHS) is a nationwide cross-sectional survey. This survey gathers health-related data for the Canadian population 12 years of age and over living in the 10 provinces and 3 territories, covering about 97% of the target population. In this case study, we will use Public Use Microdata Files (PUMF) from cycles 1.1, 2.1 and 3.1 that contain data collected in years 2000-2001, 2003 and 2005, respectively. Various measures were taken to protect the confidentiality of the participants of the survey.
The survey sampling weight provided corresponds to the number of individuals represented by the respondent for the target population. Incorporation of these weights will ensure an appropriate representation of the covered population, and hence these need to be considered to produce meaningful statistical estimates. Due to confidentiality concerns, only survey weights are made available on PUMF, but neither design information nor bootstrap weights for estimating variances are provided. Using the survey weight will provide correct point estimates, but in the absence of bootstrap weights and necessary design information, estimated variability measures calculated assuming simple random sampling will not be accurate and often be under estimated.
Cette étude de cas vise à familiariser les participants avec l’analyse de la version FMGD du jeu de données de l’ESCC (données combinées des cycles 1.1, 2.1 et 3.1). À cette fin, ils devront dans un premier temps utiliser ces données FMGD pour créer un « ensemble de données analytique » (qui n’inclura que les variables et enregistrements nécessaires pour analyser tous ces cycles), puis utiliser cet ensemble de données pour estimer des mesures brutes et ajustées de l’association entre l’arthrose et les maladies cardiaques déclarées.
Questions à considérer :
- Chez les adultes canadiens (20-64 ans), l’arthrose est-elle associée à la maladie cardiaque? Aux fins de cette étude de cas, vous pourrez assumer que la littérature prouve que les variables suivantes constituent des facteurs de risque pour les résultats et des facteurs de confusion dans la relation susmentionnée : âge, sexe, ethnicité, éducation, revenu du ménage, indice de masse corporelle (IMC), accès à un médecin de famille, tabagisme, consommation d’alcool, hypertension artérielle et diabète. Assumez également que l’activité physique est soupçonnée comme étant un facteur intermédiaire entre l’arthrose et la maladie cardiaque.
- La relation entre l’arthrose et la maladie cardiaque varie-t-elle (a) entre les participants vivant dans les régions du Nord et du Sud du Canada, (b) entre les hommes et les femmes, (c) selon l’état matrimonial, ou (d) selon la récence de l’immigration?
- Les résultats changent-ils si l’on impute une valeur manquante (ou réponse invalide) pour le « revenu du ménage »? Quelles suppositions devez-vous formuler pour effectuer une telle analyse?
- Avec les informations fournies dans les FMGD, quelle est votre interprétation des résultats de l’analyse? Quelles sont les limites de cette étude? Quelles informations supplémentaires seraient utiles pour arriver à une conclusion plus valable?
Afin de créer un « ensemble de données analytique », il est vivement recommandé de passer en revue la documentation des données correspondantes (dictionnaire de données, index thématique et guide de l’utilisateur associés aux données) pour plus de détails sur les variables suivantes (p. ex., vérifiez « Univers »). Il est souvent judicieux de recouper les variables avec la variable « Âge » (du même cycle) pour vérifier si la question était limitée à certaines tranches d’âge. De même, recoupez avec la variable « Province » pour identifier les variables créées à partir d’un « élément ESCC facultatif ». Notez que, sauf indication contraire dans la question de recherche, les variables suivantes ne sont pas forcément toutes pertinentes pour la relation étudiée. Par ailleurs, aucune information ne permet de savoir, dans ces données à grande diffusion, si un même individu a été sondé à plusieurs reprises (cycles 1.1, 2.1 et/ou 3.1). Par conséquent, aux fins de cette étude (pour simplifier), nous supposerons que les listes de personnes interrogées pour chaque cycle sont différentes.
|
Noms des variables pour les 3 cycles |
|
||
Concept de variable |
CCHS 1.1 |
CCHS 2.1 |
CCHS 3.1 |
Commentaires (voir notes ci-après) |
Souffre de maladie cardiaque |
CCCA_121 |
CCCC_121 |
CCCE_121 |
Résultat. Seules « Oui » et « Non » sont considérées comme étant des réponses valides. (1) |
Souffre d’arthrite ou de rhumatisme |
CCCA_051 |
CCCC_051 |
CCCE_051 |
Les réponses « Non » sont considérées comme « SANS OBJET » dans la variable suivante « type d’arthrite ». |
Type d’arthrite |
CCCA_05A |
CCCC_05A |
CCCE_05A |
Utile pour créer la variable d’exposition. Une réponse « ARTHROSE » crée le groupe exposé et « SANS OBJET » crée le groupe non exposé. (2) |
Âge |
DHHAGAGE |
DHHCGAGE |
DHHEGAGE |
À recoder en catégories logiques pour les 3 cycles. (3) |
Sexe |
DHHA_SEX |
DHHC_SEX |
DHHE_SEX |
|
État matrimonial |
DHHAGMS |
DHHCGMS |
DHHEGMS |
À recoder en catégories logiques pour les 3 cycles. (1) |
Origine culturelle / raciale |
SDCAGRAC |
SDCCGRAC |
SDCEGCGT |
(1) |
Statut d’immigrant |
SDCAFIMM |
SDCCFIMM |
SDCEFIMM |
Les réponses « NON » sont considérées comme « SANS OBJET » dans la variable suivante « Durée de temps au Canada depuis l’immigration ». (4) |
Durée de temps au Canada depuis l’immigration |
SDCAGRES |
SDCCGRES |
SDCEGRES |
(4) |
Plus haut niveau d’éducation - répondant |
EDUADR04 |
EDUCDR04 |
EDUEDR04 |
À recoder en catégories logiques pour les 3 cycles. (1) |
Revenu total du ménage, de toutes sources |
INCAGHH |
INCCGHH |
INCEGHH |
À recoder en catégories logiques pour les 3 cycles. (1) |
Indice de masse corporelle |
HWTAGBMI |
HWTCGBMI |
HWTEGBMI |
À recoder en 3 catégories : sous-poids (<18,5), poids sain (entre 18,5 et 25), surpoids (>25). (1) |
Indice d’activité physique |
PACADPAI |
PACCDPAI |
PACEDPAI |
(1) |
A un médecin de famille |
TWDA_5 |
HCUC_1AA |
HCUE_1AA |
(1) |
Type de fumeur |
SMKADSTY |
SMKCDSTY |
SMKEDSTY |
À recoder en catégories logiques pour les 3 cycles. (1) |
Type de consommateur d’alcool |
ALCADTYP |
ALCCDTYP |
ALCEDTYP |
À recoder en catégories logiques pour les 3 cycles. (1) |
Souffre d’hypertension artérielle |
CCCA_071 |
CCCC_071 |
CCCE_071 |
(1) |
Souffre de diabète |
CCCA_101 |
CCCC_101 |
CCCE_101 |
(1) |
Souffre d’emphysème ou de maladie pulmonaire obstructive chronique (MPOD) |
CCCA_91B |
CCCC_91B |
CCCE_91F |
(1) |
Consommation quotidienne – total de fruits et légumes |
FVCADTOT |
FVCCDTOT |
FVCEDTOT |
À recoder en 3 catégories : 0-3, 4-6 et 6+ portions quotidiennes. (1) |
Niveau perçu de stress |
GENA_07 |
GENC_07 |
GENE_07 |
À recoder en catégories logiques pour les 3 cycles. (1) |
Province |
GEOAGPRV |
GEOCGPRV |
GEOEGPRV |
Recoder Territoires du Nord-Ouest, |
Poids d’échantillonnage – étalon |
WTSAM |
WTSC_M |
WTSE_M |
À diviser par 3 pour obtenir un échantillon représentatif sur le plan national (en moyenne). |
Notes:
- Sauf indication contraire, les réponses suivantes sont considérées invalides et peuvent donc être considérées comme valeurs manquantes : « SANS OBJET », « NE SAIT PAS », « REFUS » ET « NON SPÉCIFIÉ » (« NOT APPLICABLE », « DON'T KNOW », « REFUSAL », « NOT STATED »). Pour une analyse de cas complète, tous ces enregistrements peuvent être exclus de l’étude.
- Les réponses « POLYARTHRITE RHUMATOÏDE » et « AUTRE » (« RHEUMATOID ARTHRITIS » et « OTHER ») seront exclues de l’étude.
- Conformément aux critères d’éligibilité pour l’étude, cette dernière sera limitée aux participants âgés de 20 à 64 ans.
- Utile pour créer le statut d’immigration (catégories potentielles : « non immigrant », « immigrant récent », « immigré depuis plus de 10 ans »)
Données et fichiers de documentation : https://www.dropbox.com/sh/dntqkl6wv54ypop/AACPOf6pnGh4sgithHJRQyYYa?dl=1.
Les fichiers compressés (dans le téléchargement) contiennent les fichiers de données publics originaux non édités de Statistique Canada. Les fichiers de données sont également fournis au format RData (convertis à partir des jeux de données d’origine), utilisables sous R. Notez que seul le format des données est modifié, non le contenu ni les documentations correspondantes. Ces fichiers de données devraient être identiques à ceux accessibles via les universités membres de l’Initiative de démocratisation des données. Vous trouverez les documentations associées (dictionnaire de données, index thématique et guide de l’utilisateur associés aux données) et les contrats de licence dans les dossiers « Documentation » contenus dans les fichiers compressés. Enfin, notez que l’utilisation de ces fichiers doit respecter les modalités et conditions de la Licence ouverte de Statistique Canada Open Licence (lien : https://www.statcan.gc.ca/fra/reference/licence). Veuillez consulter les contrats de licence fournis ici avant de les télécharger.
Nombre d’enregistrements et de variables :
|
CCHS 1.1 |
CCHS 2.1 |
CCHS 3.1 |
Nombre d'enregistrements |
130,880 |
134,072 |
132,221 |
Nombre de variables |
614 |
1,068 |
1,284 |
Problèmes d’accès aux données : Pour tout problème concernant l’accès aux données, la documentation ou les contrats de licence, veuillez envoyer un courrier à ehsan.karim@ubc.ca (référence « Étude de cas SSC2019 »).