Aller au contenu principal
Data Source
Canadian Community Health Survey (CCHS)
Organizer
David Haziza Département de mathématiques et de statistique Université de Montréal and Gordon Kuromi Statistics Canada

 

REMARQUE 1: Tout étudiant intéressé pourra se procurer par courriel une version électronique de la plupart des documents de référence cités ci-dessous. Pour recevoir une copie de ces documents, veuillez nous adresser un courriel.

 

REMARQUE 2 : Le Bulletin d’imputation est une revue produite par Statistique Canada deux fois par an.


Objectif

Malgré tous les efforts engagés par le personnel pour maximiser les réponses, il est presque certain que les enquêtes à grande échelle comporteront un certain degré de non-réponse. Essentiellement, les statisticiens d’enquête distinguent entre deux types de non-réponse, la non-réponse totale (quand aucune information n’est collectée auprès d’une unité échantillonnée) et la non-réponse partielle (quand l’absence d’information est limitée à certaines variables uniquement). La non-réponse totale se produit, par exemple, quand l’unité échantillonnée n’est pas chez elle ou refuse de participer à l’enquête. La non-réponse à une variable peut se produire si l’unité échantillonnée refuse de répondre à des questions sensibles ou ne connaît pas la réponse à certaines questions ou en cas de rejet des règles de vérification. Généralement, des méthodes de pondération sont employées pour compenser la non-réponse totale tandis que l’imputation est utilisée pour compenser la non-réponse partielle. Le principe de la re-pondération consiste à augmenter le poids d’échantillonnage des répondants afin de compenser pour les non- répondants, tandis que l’imputation est un processus qui permet de produire une ou plusieurs valeurs plausibles pour remplacer une valeur manquante. Il est habituel, à la fois dans les instances de re-pondération et d’imputation, de commencer par classer les répondants et les non-répondants en classes en fonction de l’information disponible pour toutes les unités de l’échantillon. Les principaux effets de la non-réponse (totale ou partielle) incluent : (i) biais des estimateurs ponctuels; (ii) augmentation de la variance des estimateurs ponctuels (puisque la taille observée est inférieure à la taille de l’échantillon initialement prévu) et (iii) biais des estimateurs standard de la variance utilisés en l’absence de non-réponse. L’objectif principal du traitement de la non-réponse (totale ou partielle) est de réduire le biais de non-réponse qui se produit si les répondants et les non-répondants diffèrent par rapport aux variables de l’enquête.
 

La tâche des étudiants est de découvrir des stratégies d’imputation permettant de réduire le biais de la non-réponse dans la mesure du possible. De plus, ils étudieront le problème de l’estimation de la variance en la présence de données imputées et compareront les résultats avec ceux qui sont obtenus lorsque les valeurs imputées sont traitées comme si elles avaient été observées. Vous trouverez la liste des questions à la page 10.


Données

Demande le Téléchargement:

Le jeu de données utilisé pour cette étude de cas est un sous-ensemble d’un échantillon collecté entre janvier 2005 et décembre 2005 dans le cadre de l’Enquête sur la santé dans les collectivités canadiennes (ESCC), une enquête transversale qui collecte des données concernant l’état de santé, l’utilisation des services de santé et les déterminants de la santé pour la population du Canada. Le jeu de données initial était un fichier de microdonnées à grande diffusion (FMGD) obtenu pour le cycle 3.1 de l’ESCC (2005), fichier composé de 132 221 enregistrements contenant 1 284 variables. Nous avons sélectionné un sous-ensemble de variables relativement restreint. Les enregistrements contenant des réponses manquantes ou incomplètes ont été éliminés, réduisant ainsi le nombre d’enregistrements. Un fichier de population artificielle (composé d’enregistrements complets) contenant 97 035 enregistrements a ainsi été créé. Cette population a ensuite été stratifiée par province / territoire et un échantillon aléatoire simple stratifié aléatoire simple (sans remise) de 20 000 enregistrements a été prélevé aux fins de l’étude de cas.

 

Dans le fichier de données, la variable samplingweight désigne le poids d’échantillonnage d’un individu, défini comme étant l’inverse de sa probabilité d’inclusion dans l’échantillon. Soit whi le poids d’échantillonnage d’un individu i dans la strate h. Alors whi = Nh nh , où Nh est le nombre d’individus dans la strate h etnh le nombre d’individus échantillonnés dans la strate h.
 

Finalement, des valeurs manquantes à la variable BMI (indice de masse corporelle, ou IMC) ont été générées en fonction d’un mécanisme de non-réponse spécifique (connuuniquement de l’équipe ayant créé l’étude de cas). Notez qu’en pratique, il est extrêmement rare que la non-réponse se limite à une seule variable. Pour simplifier, nous avons choisi de créer des valeurs manquantes pour une variable unique. De plus, le mécanisme de non-réponse utilisé pour créer les valeurs manquantes est artificiel dans la mesure où il diffère certainement du mécanisme de non-réponse inconnu observé en pratique.
 

Pour plus de détails sur l’échantillonnage stratifié, voir Lohr (1999), Särndal, Swensson et Wretman (1992) et Haziza (2007a). Vous obtiendrez également des informations sur l’ESCC sur le site Statistics Canada


Contexte

  1. Imputation simple

    Nous distinguons entre l’imputation simple et multiple. L’imputation simple consiste à créer une valeur imputée unique pour remplacer une valeur manquante, ce qui conduit à la création d’un seul fichier de données complètes. L’imputation multiple, proposée par Rubin (1978, 1987), consiste à créer M ≥ 2 valeurs imputées pour remplacer une valeur manquante, ce qui conduit à la création de M fichiers de données complètes. L’imputation multiple est discutée au paragraphe 14.

    L’imputation simple est largement employée dans les enquêtes pour traiter la non-réponse à une variable en raison des avantages qu’elle présente : (1) elle permet la création d’un fichier de données complet; (2) contrairement aux méthodes de re-pondération, l’imputation permet d’utiliser le même poids d’échantillonnage pour toutes les questions; et (3) les résultats de différentes analyses seront cohérents.

    Il est néanmoins important de noter que l’imputation présente certains risques, notamment les suivants : (1) Même si l’imputation conduit à la création d’un fichier de données complet, les inférences ne sont valides que si les hypothèses sous-jacentes concernant le mécanisme de réponse et/ou le modèle d’imputation sont satisfaites. (2) Certaines méthodes d’imputation ont tendance à déformer la distribution des variables d’intérêt (c.-à-d. les variables à imputer). (3) Le fait de traiter les valeurs imputées comme si elles étaient observées peut conduire à une sous-estimation significative de la variance de l’estimateur, surtout si le taux de non-réponse à la question est appréciable. (4) L’imputation marginale pour chaque variable séparée a pour effet de déformer la relation entre les variables.
     
  2. Quand il n’y a pas de non-réponse…

    En l’absence de non-réponse, les statisticiens d’enquête essaient d’habitude d’éviter d’utiliser des procédures d’estimation dont la validité dépend de celle d’un modèle donné. Pour éviter toute hypothèse sur la distribution des données, les propriétés des estimateurs sont généralement fondées sur le plan d’échantillonnage employé pour sélectionner l’échantillon plutôt que sur un modèle en particulier. On appelle cette approche basée sur le plan de sondage ou approche randomisée de l’inférence. Cela ne signifie pas que les modèles sont inutiles dans l’approche basée sur le plan de sondage. En fait, ils jouent un rôle important dans la détermination de procédures d’échantillonnage et d’estimation efficaces. Pour plus de détails sur l’estimation ponctuelle et de la variance dans le cas de données complètes, voir Lohr (1999), Särndal, Swensson et Wretman (1992) et Haziza (2007a).

    Contrairement au cas de réponse complète, l’utilisation de modèles est inévitable en la présence de non-réponse, et les propriétés des estimateurs (ponctuels et de la variance), comme le biais et la variance, dépendront de la validité des modèles sous-jacent. Par conséquent, l’imputation est essentiellement un exercice de modélisation. La qualité des estimations dépendra donc de la disponibilité (au stade de l’imputation) d’une bonneinformation auxiliaire et de son utilisation judicieuse lors de la construction de données imputées et /ou de classes d’imputation.
     
  3. Information auxiliaire

    Les informations auxiliaires sont un ensemble de variables disponibles pour (au moins) toutes les unités échantillonnées (c.-à-d., les variables pour lesquelles nous avons une réponse complète).

    On appelle bonnes informations auxiliaires un ensemble de variables liées à la variable à imputer et/ou à la probabilité de réponse à la variable à imputer.
     
  4. Mécanisme de non-réponse

    L’échantillon est sélectionné selon un mécanisme aléatoire connu appelémécanisme d’échantillonnage. En l’absence de non-réponse, les statisticiens utilisent leurs connaissances concernant certains aspects spécifiques du mécanisme d’échantillonnage (à savoir, les probabilités d’inclusion de premier ordre et de second ordre) pour construire des estimateurs ponctuels et de variance sans biais par rapport au plan de sondage (i.e., échantillonnage répété).

    Dans un contexte de non-réponse, il existe un autre mécanisme aléatoire qui, étant donné l’échantillon sélectionné, divise celui-ci en un ensemble aléatoire de répondants et un autre ensemble aléatoire de non-répondants. On appelle ce mécanisme aléatoire mécanisme de non-réponse. Contrairement au mécanisme d’échantillonnage, le statisticien d’enquête ne connaît pas le mécanisme de non-réponse. Ainsi, il est habituel de formuler des hypothèses au sujet du mécanisme de non-réponse. Le lecteur pourra se reporter à Beaumont (2002) pour une discussion sur le mécanisme de non-réponse et son impact sur le biais des estimateurs ponctuels.
     
  5. Modèle d’imputation

    Le modèle d’imputation est un ensemble d’hypothèses concernant la distribution de la variable à imputer. Il relie la variable à imputer à un ensemble de variables auxiliaires. Par exemple, si la variable à imputer est continue, le modèle d’imputation pourrait être un modèle de régression linéaire multiple.
     
  6. Modèle de non-réponse

    Le modèle de non-réponse est un ensemble d’hypothèses concernant le mécanisme de non-réponse inconnu. Soit ri = 1 si l’unité i a répondu à une question d’intérêt donnée et ri = 0, sinon. Puisque le statut de réponse de l’unité est une variable binaire, une possibilité de modèle de non-réponse est le modèle logistique usuel qui lie P(ri = 1) à un ensemble de variables auxiliaires.
     
  7. Quelques paramètres de population d’intérêt et leurs estimateurs

    En pratique, on compte parmi les paramètres importants le total de population et/ou la moyenne de population d’une variable particulière. Prenons l’exemple d’une population finie de N individus. Le total de population d’une variable d’intérêt y est fourni par . La moyenne de population est définie comme  Supposons que nous sélectionnions un échantillon aléatoire, s, de taille n, selon un plan d’échantillonnage donné p(s). Si nous avions une réponse complète pour la variable y, nous pourrions, par exemple, utiliser l’estimateur de Horvitz-Thompson de Y fourni par  où wi = 1πireprésente le poids d’échantillonnage attaché à l’unité i et πi représente sa probabilité d’inclusion dans l’échantillon. L’estimateur  est sans biais pour Y par rapport au plan d’échantillonnage et nous pouvons écrire , où Ep(.) représente l’espérance par rapport au plan d’échantillonnage. Un estimateur de la moyenne de population, , est obtenu en divisant  parN. En présence de non-réponse à la variable y, il n’est pas possible de calculer l’estimateur  car certaines valeurs de y manquent. Nous définissons un estimateur imputé de Y selon , où représente la valeur imputée utilisée pour remplacer la valeur manquante yi

    En pratique, il faut des estimations pour divers domaines (sous-populations). Par exemple, dans le contexte de l’ESCC, il faudra des estimaions de l’IMC moyen par groupe d’âge et de sexe ou par province. Soit  un domaine d’intérêt de taille Nd. La moyenne de domaine, , peut être exprimée par , où di est un indicateur de domaine tel que di = 1 si l’unité i appartient à Ud et di = 0, dans le cas contraire. En l’absence de non-réponse, un estimateur asymptotiquement sans biais de  est fourni par . En d’autres termes, . En la présence de non-réponse à la variable y, nous définissons un estimateur imputé par .En l’absence de non-réponse, une estimée de la proportion de la population avec une caractéristique donnée est fournie par  où Ci = 1 si l’unité i a la caractéristique et Ci = 0 si elle ne l’a pas. En présence de non-réponse, l’estimateur imputé est défini comme ci-dessus, sauf que nous essayons d’imputer une variable binaire plutôt que continue (par exemple, l’IMC).

     
  8. Méthodes d’imputation

    En pratique, un grand nombre de méthodes d’imputation sont employées pour remplacer les valeurs manquantes. Vous trouverez des descriptions de certaines d’entre elles dans Kovar et Whitridge (1995), Beaumont (2001), Kalton (2003), Beaumont et Bocci (2005) et Haziza (2005).
     
  9. Classes d’imputation

    En pratique, l’imputation est rarement effectuée à l’échelle de l’échantillon global. On crée plutôt des classes d’imputation au sein desquelles l’imputation est effectuée de façon indépendante. En pratique, de nombreuses méthodes sont employées pour créer des classes d’imputation. Le lecteur pourra se rapporter à Little (1986), Eltinge et Yansaneh (1997), Haziza (2002) et Haziza et Beaumont (2007).
     
  10. Biais de non-réponse

    On parle de biais de non-réponse lorsque les répondants et les non-répondants présentent des caractéristiques différentes par rapport aux variables mesurées dans l’enquête. Ce biais est défini comme la différence moyenne entre l’estimateur imputé et l’estimateur que nous aurions obtenu si la réponse avait été complète. Vous trouverez une discussion du biais de non-réponse dans Haziza et Beaumont (2007), Haziza et Kuromi (2007) et Haziza (2005). L’objectif principal de l’imputation est de réduire autant que possible le biais de non-réponse. Un objectif secondaire est de contrôler la variance de non-réponse (voir paragraphe 11) autant que possible. Pour ce faire, nous avons besoin d’une bonne information auxiliaire pour construire des valeurs imputées et/ou des classes d’imputation.

    Pour réduire le biais de non-réponse, il est important d’identifier un ensemble de variables auxiliaires qui expliquent la variable à imputer, ainsi qu’un ensemble de variables auxiliaires qui expliquent la probabilité de réponse à la variable à imputer; voir, par exemple, Haziza et Rao (2006).

    En fait, on peut éliminer le biais de non-réponse si : (i) le modèle d’imputation et/ou le modèle de non-réponse contiennent toutes les variables auxiliaires appropriées (c.-à-d. que les modèles sont correctement spécifiés) et (ii) le mécanisme de non-réponse peut être ignoré. Cela est discuté dans Beaumont (2002).
     
  11. Variance de non-réponse et d’imputation

    En la présence de non-réponse, la taille de l’échantillon observé est inférieure à la taille de l’échantillon prévue initialement, si bien que la non-réponse a généralement pour effet de donner lieu à des estimateurs dont la variance est supérieure à la variance des estimateurs qui serait obtenue si la réponse complète était possible. Cette augmentation de la variance est appelée variance de non-réponse. Lorsqu’une imputation aléatoire est employée (par exemple, une imputation par hot-deck aléatoire dans les classes), un troisième mécanisme aléatoire est appliqué pour sélectionner les résidus de façon aléatoire. Ainsi, les méthodes d’imputation aléatoires souffrent d’un élément de variance supplémentaire (appelé variance d’imputation) en raison de l’utilisation d’un mécanisme d’imputation aléatoire. Vous trouverez une discussion de la variance de non-réponse et d’imputation dans Haziza et Beaumont (2007) et Haziza et Kuromi (2007).
     
  12. Estimation de la variance

    Ces dernières années, l’estimation de la variance en la présence de données imputées a fait l’objet de nombreuses publications. Avant les années 1990, il était habituel de traiter les valeurs imputées comme si elles avaient été observées. Par conséquent, les estimations de variance publiées étaient trop petites car elles ne tenaient pas compte de la variance de non-réponse, ni de la variance d’imputation dans le cas de méthodes d’imputation aléatoires. Aujourd’hui, de nombreuses méthodes ont été mises au point / développées pour tenir compte de la variance de non-réponse et d’imputation. Des méthodes de rééchantillonnage comme la méthode jackknife (Rao et Shao, 1992) et la méthode bootstrap (Shao et Sitter, 1996) ont été étudiées dans le contexte de l’imputation. Nous renvoyons également le lecteur à Särndal (1992), Rao (1996, 2003), Shao et Steel (1999), Haziza et Rancourt (2004), Mathews (2004), Haziza (2005) et Haziza (2007b).
     
  13. Quelques logiciels

    Pour l’imputation simple et l’estimation ponctuelle, les procédures de modélisation de tous les logiciels standard conviennent, notamment SAS, WESVARSUDAAN, SPLUS et R . Cependant, ces logiciels n’exécutent pas correctement l’estimation de la variance pour une imputation simple. Les étudiants devront donc écrire leur propre code pour l’estimation de la variance.
     
  14. Imputation multiple

    Chaque valeur manquante est remplacée par M ≥ 2 valeurs imputées, ce qui conduit à la création de M fichiers de données complètes.
  • Les M fichiers de données complètes sont alors analysés à l’aide de procédures SAS standard.
  • Ces résultats sont alors combinés à des fins d’inférence.

L’imputation multiple, introduite par Rubin (1978, 1987), implique trois étapes distinctes :


Pour plus d’informations sur l’imputation multiple, vous pourrez vous reporter, par exemple, à Rubin (1996) et Little et Rubin (2002). Dans le contexte de l’échantillonnage de sondage, il peut s’avérer important de tenir compte des caractéristiques du plan de sondage lors de la définition d’une stratégie d’imputation appropriée. Cela est discuté dans Reiter, Raghunathan, et Kinney (2006) et Little et Ragunathan (2007).


SAS (version 9) propose à l’utilisateur deux procédures : PROC MI et PROC MIANALYZE (pour une description de ces procédures, voir, par exemple, Haziza (2003)). WESVAR , propose également l’estimation de la variance pour l’imputation multiple. SOLAS est un autre logiciel permettant l’imputation multiple.

 

Research Question

Dans ce paragraphe, nous proposons quelques pistes de travail pour les étudiants:

  • Trouvez un ensemble de variables auxiliaires liées à la variable BMI. Validez votre modèle (c.-à-d., exécutez quelques diagnostics pour vérifier que votre modèle est raisonnable).
  • Trouvez un ensemble de variables auxiliaires liées à la probabilité de réponse à la variable BMI. Validez votre modèle (c.-à-d., exécutez quelques diagnostics pour vérifier que votre modèle est raisonnable).
  • Si vous vouliez estimer la moyenne de population pour la variable BMI, quelle méthode d’imputation utiliseriez-vous? Utiliseriez-vous une méthode d’imputation déterministe ou aléatoire? Une méthode d’imputation pondérée ou non pondérée? Discutez votre choix. Comment construiriez-vous les classes d’imputation?
  • Supposons que vous vouliez estimer la proportion d’individus dans la population qui est obèse (c.-à-d., dont la valeur de la variable BMI est supérieure ou égale à 30,0). Répondez aux mêmes questions que pour (c).
  • Mêmes questions que pour (c), mais il s’agit d’estimer l’IMC moyen par groupe d’âge-sexe. Prêtez attention aux domaines pour lesquels le comportement est différent de celui de la population globale.
  • Estimez les variances des estimées pour (c), (d) et (e) en traitant les valeurs imputées comme si elles avaient été observées. Puis, estimez les variances en employant une méthode d’estimation de la variance qui utilise la variance de non-réponse et d’imputation (dans le cas de l’imputation aléatoire). Comparez et discutez les résultats. Vous pouvez également étudier l’effet de l’emploi d’une méthode d’imputation aléatoire ou déterministe sur l’estimation de la variance.
  • Les méthodes d’imputation déterministes (à l’exception de l’imputation par le plus proche voisin) ont tendance à déformer la distribution de la variable à imputer, tandis que les méthodes d’imputation aléatoire ont tendance à la conserver. Étudiez cet aspect.
     
Variables
Variable name Variable Label (meaning) Type of variable Number of values
 GEOEGPRV  Province of residence of respondent-(G) nominal categorical 11
 DHHEGAGE  Age - (G) ordinal categorical 16
 DHHE_SEX  Sex nominal categorical 2
 DHHEGMS  Marital status - (G) nominal categorical 4
 CCCE_011  Has food allergies nominal categorical 2
 CCCE_031  Has asthma nominal categorical 2
 CCCE_071  Has high blood pressure nominal categorical 2
 PACEDEE  Daily energy expenditure - (D) continuous N/A
 PACEDPAI  Physical activity index - (D) ordinal categorical 3
 SMKE_202  Type of smoker ordinal categorical 3
 ETSE_10  Someone smokes inside home nominal categorical 2
 ALCEDTYP  Type of drinker - (D) nominal categorical 4
 ALCEDDLY  Average daily alcohol consumption - (D) discrete continuous N/A
 INCEGHH  Total hhld inc. from all sources - (D,G) ordinal categorical 5
HWTEGBMI BMI / self-report - (D,G) derived continuous N/A
SelectionProb Probability of Selection continuous N/A
SamplingWeight Sampling Weight derived continuous N/A
AGE_GROUP   ordinal categorical 7

 

References
  • Beaumont J.-F. (2001). The connection between models and commonly used imputation methods, The Imputation Bulletin, vol 1, no 2.
  • Beaumont J.-F. (2002). When are we in the presence of nonignorable nonresponse?, The Imputation Bulletin, vol 2, no 1.
  • Beaumont J.-F. and Bocci (2005). Some Thoughts on Nearest-Neighbour Imputation, The Imputation Bulletin, vol 5, no 2.
  • Eltinge, J. L., and Yansaneh, I. S. (1997), “Diagnostics for formation of Nonresponse Adjustment Cells, With an Application to Income Nonresponse in the U.S. Consumer Expenditure Survey”, Survey Methodology, 23, pp. 33-40.
  • Haziza, D. (2002). Imputation classes, The Imputation Bulletin, vol 2, no 1.
  • Haziza, D. (2003). Proc MI and Proc MIANALYZE in SAS, The Imputation Bulletin, vol 3, no 2.
  • Haziza, D. (2005). Inférence en présence d’imputation simple dans les enquêtes: un survol, Journal de la Société Française de Statistique, 146, 69-118.
  • Haziza, D. (2007a). Frameworks for variance estimation in the presence of imputed data, The Imputation Bulletin, vol 7, no 1.
  • Haziza, D. (2007b). Échantillonnage. Notes cours. Disponible àhttp://www.davidhaziza.com/index_fichiers
  • Haziza, D. and Beaumont, J.-F. (2007). On the construction of imputation classes in surveys. International Statistical Review, 75, 1, 25-43.
  • Haziza, D. and Kuromi, G. (2007), Handling item nonresponse in surveys.Journal of Case Studies in Business, Industry and Government statistics, 1, 102-118.
  • Haziza, D. and Rancourt, E. (2004), Variance estimation under the two-phase imputation model approach, The Imputation Bulletin, vol 4, no 1.
  • Haziza, D. and Rao, J. N. K. (2006), A nonresponse model approach to inference under imputation for missing survey data, Survey Methodology, 32, 53-64.
  • Kalton, G. (2003). Imputation methods, The Imputation Bulletin, vol 3, no 1.
  • Kovar, J. G. and P. Whitridge (1995), “Imputation of Business Survey Data”, in B. Cox, D. Binder, A. Christianson, M. Colledge, and P. Kott (eds), Business Survey Methods, New Work: Wiley, pp. 403-420.
  • Le Petit, C. and J-M Berthelot (2006). Obesity – a growing issue. Health Reports (Statistics Canada Catalogue 82-003) 17(3) 43-52http://www.statcan.ca/cgi-bin/downpub/listpub.cgi?catno=82-003-XIE2005003
  • Little, R. J. A. (1986), “Survey Nonresponse Adjustments for Estimates of Means”, International Statistical Review, 54, pp. 139-157.
  • Little, R.J.A., and Rubin, D.B. (2002). Statistical Analysis with Missing Data, 2nd Edition. New York: John Wiley & Sons, Inc.
  • Little, R.J.A., and Raghunathan, T.E. (2007). Multiple imputation for missing data in surveys. The imputation Bulletin, Vol. ?, no. ??, 12-12
  • Lohr, S.L. (1999). Sampling: Design and Analysis. Duxbury Press.
  • Matthews, S. (2004). The reverse approach to variance estimation from survey data with imputed values, The Imputation Bulletin, vol 4, no 1.
  • Rao, J.N.K. (2003). Variance estimation in the presence of imputation for item nonresponse, The Imputation Bulletin, vol 3, no 2.
  • Rao, J.N.K. (1996). On variance estimation with imputed survey data. Journal of American Statistical Association, 91, 499-506.
  • Rao, J.N.K., and Shao, J. (1992). Jackknife variance estimation with survey data under hotdeck imputation. Biometrika, 79, 811-822.
  • Reiter, J.S., Raghunathan, T.E. and Kinney, S.K. (2006). The Importance of Modeling the Sampling Design in Multiple Imputation for Missing Data. Survey Methodology, 32, 143–149.
  • Rubin, D.B. (1978). Multiple imputations in sample surveys. Proceedings of the Survey Research Methods Section, American Statistical Association, 1978, 20-34.
  • Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons, Inc.
  • Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91, 473-489.
  • Särndal, C.E. (1992). Methods for estimating the precision of survey estimates when imputation has been used. Survey Methodology, 18, 241-252.
  • Särndal, C.E., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. New York: Springer-Verlag.
  • Shao, J., and Steel, P. (1999). Variance estimation for survey data with composite imputation and nonnegligible sampling fractions. Journal of the American Statistical Association, 94, 254-265.
  • Shields, M. and M. Tjepkema (2006). Trends in adult obesity. Health Reports(Statistics Canada Catalogue 82-003) 17(3) 53-59.http://www.statcan.ca/cgi-bin/downpub/listpub.cgi?catno=82-003-XIE2005003
  • Tjepkema, M. (2006). Adult obesity. Health Reports (Statistics Canada Catalogue 82-003) 17(3) 9-25. http://www.statcan.ca/cgi-bin/downpub/listpub.cgi?catno=82-003-XIE2005003.