Aller au contenu principal
Data Source
Health data from the 1994 National Population Health Survey
Organizer
Julie Bernier - julie.bernier@statcan.ca, David Haziza - david.haziza@statcan.ca, Karla Nobrega - karla.nobrega@statcan.ca, Patricia Whitridge - patricia.whitridge@statcan.ca

 

Overview

The data set to be studied, which uses health data from the 1994 National Population Health Survey, will have missing data to simulate non-response. In addition to studying the relationship between health status and health determinants, the student will learn about response mechanisms, non-response bias, and different methods to treat and analyze data with missing values. 
 

Introduction

In surveys, it is virtually assured that a certain level of nonresponse will occur. There are two types of nonresponse: total (or unit) nonresponse, when no information is collected on a sampled unit, and partial (or item) nonresponse, when the absence of information is only limited to some variables. In surveys, weighting adjustment methods are commonly used to compensate for total nonresponse, while imputation is used to compensate for item nonresponse.
 

Weighting adjustments are used primarily to increase the survey weight of respondents in order to compensate for the nonrespondents.  Imputation, on the other hand, produces an "artificial value" to replace a missing value. The goal in both cases is to obtain approximately unbiased estimates.
 

There are four sections to this case study.  The student may do any or all of the four components.
 

Section 1: Assessing the response mechanism
 

The student will assess the nature of the response mechanism. There are three common classifications for response mechanisms:

  • Missing Completely at Random (MCAR) i.e. the probability of response for a variable of interest y is the same for all units in the population, this means that the probability of response does not depend on either auxiliary variables x or the variable of interest y ;
  • Missing at Random (MAR), i.e. the probability of response to a variable of interest y is related to auxiliary variable(s) x ;
  • Not Missing at Random (NMAR), i.e. the probability of response to variable of interest y is related to y or to other variables that were not studied.

Note that one can only test for missing completely at random.
 

Section 2: Deciding on a method to deal with the missing data
 

The student will consider alternatives to address missing data some of which are:

  1. Do nothing;
  2. Use only respondents with complete data;
  3. Use a weighting adjustment method;
  4. Impute value using:
  • Mean
  • Ratio
  • Regression
  • Random Hot Deck
  • Nearest Neighbour
  • Other methods

Section 3: Analysing the data
 

The student will study the relationship between either the Health Utilities Index (HUI) or general self perceived health and the following variables:

  • age
  • income
  • probability of depression
  • number of chronic conditions
  • number of doctor visits
  • Body Mass Index (BMI)
  • sex
  • smoking status

Section 4: Examining bias from imputation
 

Using the Generalized System for Imputation Simulations (GENESIS) v.1.0, SAS-8.2, the student will assess the extent of bias resulting from different imputation methods.


Data Description

Survey


This case study on missing data uses a sub-sample of the 1994 National Population Health Survey.  The context of the exercise is the relationship between health status and health predictors.  Health status is measured with either the general health question or the Health Utilities Index (HUI).  The data represent persons, aged 20-65, living in a private household in the prairie provinces. (Pregnant women were excluded in this analysis.)  Note that the "missing" data values in the data sample were removed for this case study although they are, in reality, present in the public use micro-data files.
 

The National Population Health Survey (NPHS) used the Labour Force Survey sampling frame to draw the initial sample of approximately 20,000 households. The survey is designed to collect information on the health of the Canadian population and related socio-demographic information. The first cycle of data collection began in 1994 and continues every second year thereafter. The sample collection is distributed over four quarterly periods followed by a follow-up period and the whole process takes a year.  The survey is designed to produce both cross-sectional and longitudinal estimates.  In each household some limited health information is collected from all household members and one person in each household is randomly selected for a more in-depth interview.
 

The questionnaires include content related to health status, use of health services, determinants of health, a health index, chronic conditions and activity restrictions. The use of health services is probed through visits to health care providers, both traditional and non-traditional, and the use of drugs and other medications. Health determinants include smoking, alcohol use and physical activity.  As well, a section on self-care has also been included this cycle. The socio-demographic information includes age, sex, education, ethnicity, household income and labour force status.
 

Research Question

Pour la présente étude de cas, nous prenons pour exemple une enquête en vue de :

  1. faire la distinction entre les divers mécanismes de non-réponse;
  2. examiner les méthodes utilisées pour tenir compte de la non-réponse;
  3. estimer le biais dû à la non-réponse.
     
Variables

Indice de l’état de santé :

GH_Q1 En général, diriez-vous que votre santé est : excellente? Très bonne? Bonne? Passable? Mauvaise?
DVHST94 Indice de l’état de santé dérivé (trois décimales) – Score provisoire de l’HUI.

Covariates:

AGEGRP Groupes d’âge
SEX Sexe du répondant
DVHHIN94 Variable dérivée – Revenu total du ménage en provenance de toutes les sources au cours des 12 derniers mois
DVBMI94 Variable dérivée – Indice de masse corporelle (une décimale)
DVSMKT94 Variable dérivée – Catégorie d’usage du tabac
DVPP94 Variable dérivée – Probabilité que le répondant soit déprimé (deux décimales)
NUMCHRON Somme des problèmes de santé suivants :
CHRQ1_A Avez-vous des allergies alimentaires diagnostiquées par un professionnel de la santé?
CHRQ1_B Avez-vous d’autres allergies diagnostiquées par un professionnel de la santé?
CHRQ1_C Faites-vous de l’asthme diagnostiqué par un professionnel de la santé?
CHRQ1_D Souffrez-vous d’arthrite ou de rhumatisme diagnostiqué par un professionnel de la santé?
CHRQ1_E Souffrez-vous de maux de dos, autres que ceux dus à l’arthrite, diagnostiqués par un professionnel de la santé?
CHRQ1_F Faites-vous de l’hypertension diagnostiquée par un professionnel de la santé?
CHRQ1_G Souffrez-vous de migraines diagnostiquées par un professionnel de la santé?
CHRQ1_H Souffrez-vous de bronchite chronique ou d’emphysème diagnostiqué par un professionnel de la santé?
CHRQ1_I  Faites-vous de la sinusite diagnostiquée par un professionnel de la santé?
CHRQ1_J Faites-vous du diabète diagnostiqué par un professionnel de la santé?
CHRQ1_K Souffrez-vous d’épilepsie diagnostiquée par un professionnel de la santé?
CHRQ1_L Souffrez-vous d’une maladie cardiaque diagnostiquée par un professionnel de la santé?
CHRQ1_M Êtes-vous atteint(e) d’un cancer diagnostiqué par un professionnel de la santé?
CHRQ1_N Souffrez-vous d’ulcères à l’estomac ou à l’intestin diagnostiqués par un professionnel de la santé?
CHRQ1_O Souffrez-vous de troubles dus à un accident vasculaire cérébral diagnostiqués par un professionnel de la santé?
CHRQ1_P Souffrez-vous d’incontinence urinaire diagnostiquée par un professionnel de la santé?
CHRQ1_R Souffrez-vous de la maladie d’Alzheimer diagnostiquée par un professionnel de la santé?
CHRQ1_S Faites-vous de la cataracte diagnostiquée par un professionnel de la santé?
CHRQ1_T Souffrez-vous d’un glaucome diagnostiqué par un professionnel de la santé
CHRQ1_U Souffrez-vous de tout autre problème de santé de longue durée diagnostiqué par un professionnel de la santé?
VISITES Somme des réponses aux questions suivantes :
UTIL-Q2 (Sans compter les séjours dans un établissement de santé) Au cours des 12 derniers mois, combien de fois... a-t-il(elle) vu ou consulté par téléphone un(e) [lisez la catégorie] pour des troubles physiques, émotifs ou mentaux?

a) Médecin de famille ou un omnipraticien
b) Spécialiste de la vue (comme un ophtalmologiste ou un optométriste)
c) Autre médecin ou spécialiste (comme un chirurgien, un allergologue, un orthopédiste, un gynécologue ou un psychiatre)
d) Infirmière pour recevoir des soins ou des conseils
e) Dentiste ou un orthodontiste
f) Chiropraticien
g) Physiothérapeute
h) Travailleur social ou un conseiller
i) Psychologue
j) Orthophoniste, un audiologiste ou un ergothérapeute

WT6 Poids de sondage

Consulter la documentation jointe sur l’ENSP pour les catégories et les définitions.

 

Data Access

Data: Excel file, SAS 8.2 file; SAS variable definitions.
 

Les données peuvent être obtenues à http://www.statcan.ca/english/IPS/Data/82M0009XCB.htmles étudiants peuvent les obtenir gratuitement par l’entremise de l’Initiative de démocratisation des données.

Tous les renseignements sont autodéclarés.
 

Cliquez ici pour obtenir l'étude de cas "Traitement des données manquantes" comme un document de Word.

References

 

Bourbeau R , Legare J , and Emond V. Nouvelles tables de mortalité par génération au Canada et au Québec. Document demographique no. 3. (Statistics Canada Catalogue no. 91F0015MPF) 1997.
 
Fellegi, I. P., and D. Holt (1976), "A Systematic Approach to Automatic Edit and Imputation", Journal of the American Statistical Association, 71, pp. 17-35.
 
*Kalton, G. and D. Kasprzyk (1982), "Imputing for Missing Survey Responses", Proceedings of the Survey Research Methods Section, American Statistical Association, pp. 22-31.
 
*Kalton, G., and Kasprzyk, D. (1986), "The treatment of missing survey data", Survey Methodology, 12, pp. 1-16.
 
*Kovar, J. G. and P. Whitridge (1995), "Imputation of Business Survey Data", in B. Cox, D. Binder, A. Christianson, M. Colledge, and P. Kott (eds),  Business Survey Methods, New Work: Wiley, pp. 403-420.

Lee , H., E. Rancourt and C.-E. Särndal (1991), "Experiments with Variance Estimation from Survey Data with Imputed Values", Proceedings of the Survey Research Methods Section, American Statistical Association, pp. 690-695.

*Little, R. J. A. and D. B. Rubin (1987), Statistical Analysis with Missing Data, New York : Wiley.

Lohr, S.L. (1999).  Sampling: Design and Analysis.  Duxbury Press.

Martel L, Bélanger A. An analysis of the change in dependence-free life expectancy in Canada between 1986 and 1996. Report on the Demographic Situation in Canada 1998-1999 (Statistics Canada Catalogue no. 91-209-XPE) 1999;164-86.

Mathers CD (1992) Estimating gains in health expectancy due to elimination of specified diseases. Fifth meeting of the International Network on Health Expectancy (REVES-5), Statistics Canada, Ottawa , 19-21 February 1992.

Monier A. La conjoncture demographique: l'Europe et les pays developes d'outre-mer. Population 1998;53:995-1023.

*Nordholt, E.S. (1997). Imputation: methods, simulation experiments and practical examples. Statistics Netherlands , 1-9

Nusselder WJ , van der Velden K, Sonsbeek JLA et al (1996). The elimination of selected chronic diseases in a population: the compression and expansion of morbidity. American Journal of Public Health  86(2): 187-193.

Oh, H. L. and F. J. Scheuren (1983), "Weighting Adjustment for Unit non-response", in W. G. Madow, I. Olkin, and D. B. Rubin (eds), Incomplete data in Sample Surveys, Vol. 2: Theory and Bibliographies, New York: Academic Press, pp. 143-184.
 
Sande, I. G. (1982), "Imputation in Surveys: Coping with Reality", American Statistician, 36, pp. 145-152.

Smith, P. J., Hoaglin, D. C., Battaglia, M. P., Rao, J. N. K., and Daniels, D. (2001), "Evaluation of Adjustment for Partial Nonresponse Bias, Applied to Provider nonresponse in the National Immunization Survey", paper presented at the Annual Meeting of the Statistical Society of Canada, Ottawa, Canada.

Torrance , George W. (1987): Utility approach to measuring health-related quality of life, Journal of Chronicle diseases, 40:6:593-600.

Torrance , George W. and Feeny, David (1989): Utilities and Quality-Adjusted Life Years, International Journal of Technology Assessment in Health Care.​