Atelier du Groupe sur les méthodes d’enquête

Estimation pour petits domaines

Le 23 mai 2010, 9:00 am – 12:00 pm, 1:30 – 4:00 pm

Pascal Ardilly, Institut national de la statistique et des études économiques (INSEE), France

Lorsqu’on souhaite estimer des paramètres définis sur des populations de petite taille à partir de données d’enquêtes par sondage (taux de chômage, proportion de « pauvres », revenu moyen, etc.), on se trouve confronté au problème de la médiocre qualité des estimations issues des méthodes classiques. C’est une conséquence mécanique de la faible taille de l’échantillon qui recoupe ces populations (appelées “domaines”), lesquelles peuvent être de « petites » aires, par exemple des agglomérations, ou des sous-populations définies par un croisement assez fin de critères sociodémographiques (exemple : femmes actives de moins de 30 ans ayant 2 enfants). Pour améliorer la précision des estimations, il est alors nécessaire d’utiliser de l’information auxiliaire obtenue à partir de sources exhaustives ou à défaut d’enquêtes par sondage de très grande taille. On dispose ainsi d’un ensemble de méthodes d’estimation dites “sur petits domaines”, qui sont structurées par la façon dont on exploite l’information auxiliaire et que l’on peut résumer comme suit.

Une première approche est celle du redressement sur une batterie de variables auxiliaires connues sur l’ensemble des individus du petit domaine. En pondérant les unités échantillonnées de manière à retrouver des structures exactes connues au niveau du petit domaine, on peut réduire l’erreur d’échantillonnage de manière très appréciable, sans qu’il y ait d’hypothèse particulière à faire sur les comportements des individus.

Une seconde classe de méthodes s’appuie sur des hypothèses de nature descriptive portant sur certaines composantes du paramètre que l’on cherche à estimer. Ces hypothèses assimilent un comportement moyen local (dans le petit domaine) à un comportement moyen global (dans la population complète). Par exemple, pour estimer une moyenne sur le petit domaine, on va décomposer la population globale en sous-populations ad hoc et on va postuler que sur chacune de ces sous-populations, la moyenne vraie restreinte au petit domaine est égale à la moyenne vraie étendue à la population complète. On peut aussi faire des hypothèses de cette nature portant, non plus sur des moyennes, mais sur des coefficients de régression, c’est-à-dire considérer qu’une relation entre variables est identique dans le petit domaine et dans la population complète. Ce type d’hypothèse permet de construire une estimation locale qui mobilise l’ensemble des unités échantillonnées, ce qui contribue à stabiliser les estimations et donc à réduire l’erreur d’échantillonnage globale — au prix certes d’un biais qui dépend de la pertinence des hypothèses.

Une troisième approche, certainement la plus commune et la plus diversifiée, repose sur une modélisation stochastique des comportements, l’unité modélisée étant soit l’individu composant la population, soit le paramètre d’intérêt défini sur le petit domaine. Il existe de très nombreux modèles plus ou moins concurrents pour produire des estimations (modèles linéaires mixtes, modèles linéaires mixtes généralisés, techniques bayésiennes, …), mais dans tous les cas le principe sous-jacent est le suivant : à partir d’une information auxiliaire bien explicative et disponible sur l’ensemble de la population, on estime les paramètres du modèle à partir de l’échantillon global et on forme dans un second temps un estimateur local qui s’appuie sur ces paramètres. Ainsi, on bénéficie d’une grande stabilité des estimateurs locaux, puisqu’ils intègrent l’ensemble des unités échantillonnées, dans et hors du petit domaine. Bien entendu, la pertinence de cette approche est dépendante de la validité du modèle, mais on dispose en principe d’indicateurs de qualité pour en juger.

Le cours reprendra ces approches, théorie et exemples, et s’efforcera d’en préciser les apports et les limites.

L’atelier sera présenté en français avec des acétates en français.