Traitment des données manquantes

2002

Date Source: 

Health data from the 1994 National Population Health Survey

Organizer: 

Julie Bernier - julie.bernier@statcan.ca, David Haziza - david.haziza@statcan.ca, Karla Nobrega - karla.nobrega@statcan.ca, Patricia Whitridge - patricia.whitridge@statcan.ca

 

Vue d’ensemble/résumé

L’ensemble de données à étudier, qui comprend des données sur la santé provenant de l’Enquête nationale sur la santé de la population de 1994, contiendra des enregistrements dont on a supprimé des données en vue de simuler la non-réponse. En plus des liens entre l’état de santé et les déterminants de la santé, l’étudiant étudiera les mécanismes de réponse, le biais dû à la non-réponse et diverses méthodes de traitement et d’analyse d’ensembles de données avec valeurs manquantes.
 

Introduction

Dans toute enquête, un certain degré de non-réponse est virtuellement inévitable. On distingue deux catégories de non-réponse : la non-réponse totale (ou par unité), lorsqu’aucune information n’est recueillie sur une unité échantillonnée et la non-réponse partielle (ou par item), lorsque le manque d’information est limité à certaines variables. En général, les statisticiens d’enquête procèdent à un ajustement de poids pour compenser pour la non-réponse totale et à l’imputation pour parer à la non-réponse partielle.
 

Les méthodes de repondération visent principalement à augmenter le poids de sondage appliqué aux répondants pour compenser pour les non-répondants. L’imputation, quant à elle, consiste à produire une « valeur artificielle » pour remplacer la valeur manquante. Dans les deux cas, l’objectif est de produire des estimations approximativement sans biais.
 

La présente étude de cas comporte quatre exercices. Vous pouvez demander aux étudiants de résoudre n’importe lequel d’entre eux ou bien tous.
 

1) Évaluation du mécanisme de réponse
 

L’étudiant déterminera la nature du mécanisme de réponse. Les trois catégories courantes de mécanisme de réponse sont les suivantes :

  • Manquant complètement au hasard (MCAR pour Missing completely at random) : la probabilité de réponse pour la variable d’intérêt y est la même pour toutes les unités de la population et ne dépend donc ni des variables auxiliaires x ni de la variable d’intérêt y;
  • Manquant au hasard (MAR pour Missing at random ) : la probabilité de réponse pour la variable d’intérêt y dépend des variables auxiliaires x;
  • Ne manquant pas au hasard (NMAR pour Not missing at random) : la probabilité de réponse pour la variable d’intérêt y dépend de y ou d’autres variables non étudiées.

À noter que l’on ne peut effectuer à un test d’hyptothèse que dans le cas d’un mécanisme MCAR.
 

2) Choix de la méthode de traitement des données manquantes
 

L’étudiant examinera divers moyens de traiter les cas de données manquantes, dont :

  • ne rien faire;
  • utiliser uniquement les enregistrements pour lesquels les données sont complètes;
  • utiliser une méthode de repondération;
  • imputer une valeur par des méthodes telle :
    • la moyenne
    • le ratio
    • la régression
    • le hot-deck aléatoire
    • le plus proche voisin
    • autre

3) Analyse des données
 

L’étudiant examinera la relation entre l’indice de l’état de santé (HUI pour Health Utilities Index) ou l’état de santé général autoévalué et les variables suivantes :

  • âge;
  • revenu;
  • probabilité d’être déprimé(e);
  • nombre de problèmes de santé chroniques;
  • nombre de visites chez le médecin;
  • indice de masse corporelle (IMC);
  • sexe;
  • catégorie d’usage du tabac.

4) Examen du biais dû à l’imputation


À l’aide du Generalized System for Imputation Simulations (GENESIS) v.1.0, SAS-8.2, l’étudiant évaluera l’importance du biais que causent les diverses méthodes d’imputation.


Renseignements généraux sur l’ensemble de données

Enquête


L’étude de cas sur les données manquantes porte sur un sous-échantillon de l’Enquête nationale sur la santé de la population de 1994. Le contexte de l’exercice est l’établissement des liens entre l’état de santé et les déterminants de la santé. On se sert, pour mesurer l’état de santé, de la question sur l’état de santé général ou de l’indice de l’état de santé (HUI). Les données représentent les personnes de 20 à 65 ans vivant dans un logement privé dans les provinces des Prairies. (Les femmes enceintes sont exclues de cette analyse). Notons que les valeurs qui manquent dans l’échantillon de données étudié ont été supprimées pour cette étude de cas, mais qu’elles existent effectivement dans le fichier de microdonnées à grande diffusion de l’enquête.
 

L’échantillon initial d’environ 20 000 ménages de l’Enquête nationale sur la santé de la population (ENSP) a été tiré à partir de la base de sondage de l’Enquête sur la population active. L’ESNP est conçue pour recueillir des renseignements sur la santé et sur les caractéristiques sociodémographiques de la population canadienne. Le premier cycle de collecte des données a débuté en 1994 et a été répété tous les deux ans depuis. La collecte des données est répartie sur quatre trimestre et comporte une période de suivi. Le procédé complet dure une année. L’enquête est conçue pour produire des estimations transversales ainsi que longitudinales. Dans chaque ménage échantillonné, on recueille des renseignements généraux sur la santé de tous les membres du ménage, puis on sélectionne au hasard une personne pour participer à l’interview approfondie sur la santé.
 

Le contenu du questionnaire couvre l’état de santé, l’utilisation des services de santé, les déterminants de la santé, l’indice de l’état de santé (HUI), les problèmes de santé chroniques et la limitation des activités. Pour évaluer l’utilisation des services de santé, des questions sont posées sur la consultation des prestateurs de soins conventionnels et non conventionnels, ainsi que sur la consommation de médicaments. Les déterminants de la santé incluent l’usage du tabac, la consommation d’alcool et l’activité physique. Les renseignements sociodémographiques incluent l’âge, le sexe, le niveau de scolarité, le groupe ethnique, le revenu du ménage et la situation d’activité.
 

Research Question: 

Pour la présente étude de cas, nous prenons pour exemple une enquête en vue de :

  1. faire la distinction entre les divers mécanismes de non-réponse;
  2. examiner les méthodes utilisées pour tenir compte de la non-réponse;
  3. estimer le biais dû à la non-réponse.
     

Variables: 

Indice de l’état de santé :

GH_Q1 En général, diriez-vous que votre santé est : excellente? Très bonne? Bonne? Passable? Mauvaise?
DVHST94 Indice de l’état de santé dérivé (trois décimales) – Score provisoire de l’HUI.

Covariates:

AGEGRP Groupes d’âge
SEX Sexe du répondant
DVHHIN94 Variable dérivée – Revenu total du ménage en provenance de toutes les sources au cours des 12 derniers mois
DVBMI94 Variable dérivée – Indice de masse corporelle (une décimale)
DVSMKT94 Variable dérivée – Catégorie d’usage du tabac
DVPP94 Variable dérivée – Probabilité que le répondant soit déprimé (deux décimales)
NUMCHRON Somme des problèmes de santé suivants :
CHRQ1_A Avez-vous des allergies alimentaires diagnostiquées par un professionnel de la santé?
CHRQ1_B Avez-vous d’autres allergies diagnostiquées par un professionnel de la santé?
CHRQ1_C Faites-vous de l’asthme diagnostiqué par un professionnel de la santé?
CHRQ1_D Souffrez-vous d’arthrite ou de rhumatisme diagnostiqué par un professionnel de la santé?
CHRQ1_E Souffrez-vous de maux de dos, autres que ceux dus à l’arthrite, diagnostiqués par un professionnel de la santé?
CHRQ1_F Faites-vous de l’hypertension diagnostiquée par un professionnel de la santé?
CHRQ1_G Souffrez-vous de migraines diagnostiquées par un professionnel de la santé?
CHRQ1_H Souffrez-vous de bronchite chronique ou d’emphysème diagnostiqué par un professionnel de la santé?
CHRQ1_I  Faites-vous de la sinusite diagnostiquée par un professionnel de la santé?
CHRQ1_J Faites-vous du diabète diagnostiqué par un professionnel de la santé?
CHRQ1_K Souffrez-vous d’épilepsie diagnostiquée par un professionnel de la santé?
CHRQ1_L Souffrez-vous d’une maladie cardiaque diagnostiquée par un professionnel de la santé?
CHRQ1_M Êtes-vous atteint(e) d’un cancer diagnostiqué par un professionnel de la santé?
CHRQ1_N Souffrez-vous d’ulcères à l’estomac ou à l’intestin diagnostiqués par un professionnel de la santé?
CHRQ1_O Souffrez-vous de troubles dus à un accident vasculaire cérébral diagnostiqués par un professionnel de la santé?
CHRQ1_P Souffrez-vous d’incontinence urinaire diagnostiquée par un professionnel de la santé?
CHRQ1_R Souffrez-vous de la maladie d’Alzheimer diagnostiquée par un professionnel de la santé?
CHRQ1_S Faites-vous de la cataracte diagnostiquée par un professionnel de la santé?
CHRQ1_T Souffrez-vous d’un glaucome diagnostiqué par un professionnel de la santé
CHRQ1_U Souffrez-vous de tout autre problème de santé de longue durée diagnostiqué par un professionnel de la santé?
VISITES Somme des réponses aux questions suivantes :
UTIL-Q2 (Sans compter les séjours dans un établissement de santé) Au cours des 12 derniers mois, combien de fois... a-t-il(elle) vu ou consulté par téléphone un(e) [lisez la catégorie] pour des troubles physiques, émotifs ou mentaux?

a) Médecin de famille ou un omnipraticien
b) Spécialiste de la vue (comme un ophtalmologiste ou un optométriste)
c) Autre médecin ou spécialiste (comme un chirurgien, un allergologue, un orthopédiste, un gynécologue ou un psychiatre)
d) Infirmière pour recevoir des soins ou des conseils
e) Dentiste ou un orthodontiste
f) Chiropraticien
g) Physiothérapeute
h) Travailleur social ou un conseiller
i) Psychologue
j) Orthophoniste, un audiologiste ou un ergothérapeute

WT6 Poids de sondage

Consulter la documentation jointe sur l’ENSP pour les catégories et les définitions.

 

Data Access: 

Data: Excel file, SAS 8.2 file; SAS variable definitions.
 

Les données peuvent être obtenues à http://www.statcan.ca/english/IPS/Data/82M0009XCB.htmles étudiants peuvent les obtenir gratuitement par l’entremise de l’Initiative de démocratisation des données.

Tous les renseignements sont autodéclarés.
 

Cliquez ici pour obtenir l'étude de cas "Traitement des données manquantes" comme un document de Word.

References: 

 

Bourbeau R , Legare J , and Emond V. Nouvelles tables de mortalité par génération au Canada et au Québec. Document demographique no. 3. (Statistics Canada Catalogue no. 91F0015MPF) 1997.
 
Fellegi, I. P., and D. Holt (1976), "A Systematic Approach to Automatic Edit and Imputation", Journal of the American Statistical Association, 71, pp. 17-35.
 
*Kalton, G. and D. Kasprzyk (1982), "Imputing for Missing Survey Responses", Proceedings of the Survey Research Methods Section, American Statistical Association, pp. 22-31.
 
*Kalton, G., and Kasprzyk, D. (1986), "The treatment of missing survey data", Survey Methodology, 12, pp. 1-16.
 
*Kovar, J. G. and P. Whitridge (1995), "Imputation of Business Survey Data", in B. Cox, D. Binder, A. Christianson, M. Colledge, and P. Kott (eds),  Business Survey Methods, New Work: Wiley, pp. 403-420.

Lee , H., E. Rancourt and C.-E. Särndal (1991), "Experiments with Variance Estimation from Survey Data with Imputed Values", Proceedings of the Survey Research Methods Section, American Statistical Association, pp. 690-695.

*Little, R. J. A. and D. B. Rubin (1987), Statistical Analysis with Missing Data, New York : Wiley.

Lohr, S.L. (1999).  Sampling: Design and Analysis.  Duxbury Press.

Martel L, Bélanger A. An analysis of the change in dependence-free life expectancy in Canada between 1986 and 1996. Report on the Demographic Situation in Canada 1998-1999 (Statistics Canada Catalogue no. 91-209-XPE) 1999;164-86.

Mathers CD (1992) Estimating gains in health expectancy due to elimination of specified diseases. Fifth meeting of the International Network on Health Expectancy (REVES-5), Statistics Canada, Ottawa , 19-21 February 1992.

Monier A. La conjoncture demographique: l'Europe et les pays developes d'outre-mer. Population 1998;53:995-1023.

*Nordholt, E.S. (1997). Imputation: methods, simulation experiments and practical examples. Statistics Netherlands , 1-9

Nusselder WJ , van der Velden K, Sonsbeek JLA et al (1996). The elimination of selected chronic diseases in a population: the compression and expansion of morbidity. American Journal of Public Health  86(2): 187-193.

Oh, H. L. and F. J. Scheuren (1983), "Weighting Adjustment for Unit non-response", in W. G. Madow, I. Olkin, and D. B. Rubin (eds), Incomplete data in Sample Surveys, Vol. 2: Theory and Bibliographies, New York: Academic Press, pp. 143-184.
 
Sande, I. G. (1982), "Imputation in Surveys: Coping with Reality", American Statistician, 36, pp. 145-152.

Smith, P. J., Hoaglin, D. C., Battaglia, M. P., Rao, J. N. K., and Daniels, D. (2001), "Evaluation of Adjustment for Partial Nonresponse Bias, Applied to Provider nonresponse in the National Immunization Survey", paper presented at the Annual Meeting of the Statistical Society of Canada, Ottawa, Canada.

Torrance , George W. (1987): Utility approach to measuring health-related quality of life, Journal of Chronicle diseases, 40:6:593-600.

Torrance , George W. and Feeny, David (1989): Utilities and Quality-Adjusted Life Years, International Journal of Technology Assessment in Health Care.​