Couplage d’enregistrements- Maintenance de Registre

2006

Date Source: 

Statistics Canada

Organizer: 

Dr. Peggy Ng (York University) and Nevin Chan (University of Toronto)

Couplage d’enregistrements - Couplage Exact

Le couplage d’enregistrements est un cadre qui permet de rapprocher des enregistrements correspondants de deux ou plusieurs sources de données (ou de trouver des doublons dans un fichier). Il existe deux grandes approches en matière de couplage de fichiers de données : le couplage exact et le couplage statistique. Le couplage exact diffère du couplage statistique de plusieurs façons. La différence la plus importante est que dans un couplage exact, on présume que les individus auxquels se rapportent les deux fichiers sont les mêmes, tandis que dans un couplage statistique on présume que les individus proviennent de la même population, mais il n’est pas nécessaire de présumer qu’il s’agit des mêmes individus dans les deux fichiers. Dans le cadre de cette étude de cas, nous nous concentrerons sur les techniques de couplage exact, puisque nous travaillons sur un registre et que nous devons maintenir des informations exactes sur la population d’intérêt.
 

Les identificateurs uniques sont rares. Il est donc nécessaire d’utiliser des variables d’identification telles que le nom de famille, les prénoms, la date de naissance, etc., afin de relier les enregistrements de deux sources. Dans de nombreux cas, ces caractéristiques d’identification ne sont pas particulières à un individu donné. Elles peuvent changer avec le temps, elles peuvent avoir été enregistrées de manière erronée ou elles peuvent manquer dans certains enregistrements. Dans cette étude de cas, nous souhaitons effectuer un couplage exact, c’est à dire relier des données relatives à l’impôt, aux décès et aux naissances pour les mêmes personnes dans chaque fichier, afin de mettre à jour le registre.

Couplage d’enregistrements dèterministe

Une correspondance existe dans un couplage dèterministe lorsqu’un nombre suffisant d’identificateurs concordent entre deux enregistrements. Dans le cas le plus simple et le plus restrictif, tous les identificateurs sont tenus d’être d’accord. Les règles (hiérarchiques) plus flexibles peuvent être utilisées qui permet à un sous-ensemble prédéterminé d’identificateurs “de déterminer” un couplage.
 

L’une des principales limites du couplage dèterministe est le fait que chaque identificateur soit considèrè comme ètant de qualitè ègale. Une concordance d’un identificateur n’offre pas plus de preuve de couplage qu’une concordance d’un autre quelconque. Par conséquent, il est impossible de résoudre des liens, qui se produisent quand un record s’accorde avec deux (ou plus) d’autres sur le même nombre d’identificateurs.
 

En pratique, les identificateurs diffèrent quant au volume d’informations qu’ils contiennent sur un individu. Les données réelles contiennent des disparus ou des valeurs incorrectes, avec quelques identificateurs codés plus correctement que d’autres. Une seule valeur mal saisie peut faire èchouer un couplage, même si le couplage est parfaitement prouvè par les autres identificateurs, ou inversement, une valeur mal saisie peut donner lieu à un couplage erronè.

Couplage d’enregistrements probabiliste

Une façon de tenir compte de cette diffèrence est en recourant au couplage probabiliste. Cette mèthode ne s’intèresse pas uniquement au nombre d’identificateurs qui correspondent, mais ˆj la nature de ceux-ci. Une correspondance pour trois identificateurs forts aura prioritè sur une correspondance pour trois plus faibles, tandis que la mèthode du couplage dèterministe aurait rèsultè en une situation d’ègalitè. Fellegi et Sunter (1969) ont prèsentè cette idèe dans un cadre mathèmatique formel. Outre cette approche, les rèseaux neuronaux, les graphes bipartis et la logique floue ont tous ètè utilisès dans divers projets de couplage.
 

L’importance d’un identificateur se mesure en calculant le volume d’information transmis par les valeurs de la variable. Les variables qui peuvent avoir de nombreuses valeurs diffèrentes, comme le jour ou le mois de naissance, contiennent ordinairement plus d’informations que celles avec peu de valeurs, comme le sexe. Il est beaucoup plus probable, par exemple, que deux enregistrements sèlectionnès au hasard aient le mˆ§me sexe que la même date d’anniversaire. Une concordance d’anniversaire est donc considèrèe comme une preuve beaucoup plus forte de couplage qu’une concordance de sexe, puisqu’il est beaucoup plus probable que la concordance du sexe est entiˆorement due au hasard. Cette information, la probabilitè pour que deux paires alèatoires aient les mêmes valeurs, est utilisèe conjointement avec la probabilitè pour que deux paires rèelles aient les mêmes valeurs pour estimer les chances de vrai couplage.
 

De nombreux domaines utilisent les techniques de couplage d’enregistrements pour mettre ˆj jour les informations contenues dans des registres et produire des rapports et des analyses sur la base de l’ensemble de donnèes ˆj jour.

Mèthodes

Sèlection de variables

Les variables utilisées dans un projet de couplage doivent être sèlectionnèes en fonction des critères suivants :

  • Permanent: existe à la naissance et demeure inchangè,
  • Universel: chaque membre de la population l’a,
  • Raisonnable: les personnes ne s’opposent pas aux renseignements étant révélés
  • Économique, Simple, Disponible, Connu, Exact, Unique

Puis, une fois les variables identifièes, les fichiers doivent être nettoyès et standardisès.

Nettoyage (prè-traitement) du Fichier

Tout ensemble de donnèes prèsente des erreurs. Nous devons minimiser ces erreurs et, surtout, standardiser les fichiers.


1. Standardiser le nom

  • L’ètudiant peut standardiser le nom de diffèrentes façons. (Supprimer les espaces, tirets ou autres caractères).
  • Deux mèthodes communèment utilisèes pour standardiser les noms sont Soundex and NYSIIS.

2. Standardiser les dates

  • Supprimer les espaces, tirets ou autres caractères.
  • Garantir un format et un ordre communs pour le jour, le mois et l’annèe

3. Standardiser les donnèes gèographiques

  • Supprimer les espaces, tirets ou autres caractères.
  • Code postal
  • Sous-composantes du code postal (RTA : règion de tri d’acheminement)

4. Approche les donnèes manquantes

Couplage d’enregistrements

Plusieurs mèthodes peuvent être utilisèes pour coupler les donnèes. Dans le cadre de cette ètude de cas, nous nous concentrerons sur le couplage d’enregistrements probabiliste, mais n’hèsitez pas ˆj travailler avec d’autres mèthodes comme les rèseaux neuronaux, les graphes bipartis et la logique floue.

Couplage d’enregistrements probabiliste: Fellegi-Sunter

Dans ce type de couplage, toutes les paires possibles sont comparèes afin de dèterminer celles qui sont le plus vraisemblable. Chaque paire est èvaluèe á l’aide de règles. Chacun des rèsultats de chaque règle se voit associer un poids; ces poids sont ajoutès pour toutes les règles pour obtenir un poids total, qui est utilisè pour èvaluer la vraisemblance d’une vraie paire.


Règles:


Une règle est une comparaison de deux champs. Ainsi, on pourra comparer la correspondance du mois de naissance dans deux fichiers.


Rèsultats:


Chaque règle permet de crèer une sèrie de rèsultats. Ainsi, la comparaison du mois de naissance produit les rèsultats potentiels suivants:

  • Concordance les mois se correspondent parfaitement.
  • Non-concordance les mois sont èloignès de plus de 2 mois.
  • Concordance partielle les mois sont èloignès de 2 mois au plus.

* Notez que les rèsultats sont gènèralement indèpendants.


Poids:


Pour chaque rèsultat d’une règle, nous calculerons un poids. Il s’agit de la combinaison de certaines probabilitès. Nous devons calculer les valeurs suivantes:

  1. P(Concordance | Paire)
  2. P(Concordance | Pas de paire)
  3. P(Non-concordance | Paire)
  4. P(Non-concordance | Pas de paire)

Il n’est peut-être pas èvident qu’il pourrait y avoir autre chose que 1 ou 0, mais les donnèes comportent des erreurs si bien que même lorsque les choses constituent une vraie paire, elles ne concordent pas forcèment.


Sur la base du mois de naissance, si nous examinons le rèsultat de la concordance, nous savons qu’il existe 12 mois, si bien qu’en prenant deux personnes au hasard, la probabilitè pour qu’il ait concordance du mois mais qu’elles ne soient pas une paire est de 1/12. Par consèquent, la probabilitè de non-concordance pour deux personnes qui ne sont pas une paire est de 11/12.


Nous pouvons aussi faire des suppositions sur la qualitè du codage et de la saisie des donnèes. Si le taux d’erreur est faible, nous pourrons supposer qu’il y a une probabilitè de 90 % pour que les donnèes soient saisies correctement. Si deux enregistrements forment rèellement une paire, alors avec les erreurs de donnèes, la probabilitè pour qu’ils concordent est de 0,90, tandis que la probabilitè pour qu’ils ne concordent pas, s’ils forment une vraie paire, est de 0,1.


Les rapports de ces chiffres sont la chance pour qu’il ait concordance sur une vraie paire, comparèe á celle d’une fausse paire. Un modèle incluant des exemples de calculs de poids est fourni dans le fichier: Poids d’Exemple


Poids global:


Le poids global est la somme des poids pour chaque rèsultat.


Blocs:


Puisque cette mèthode compare toutes les paires possibles, il est raisonnable de ne crèer que des paires qui pourraient correspondre. Une façon de procèder est de crèer des blocs. Seuls les enregistrements inclus dans un même bloc sont mis en correspondance. Par exemple, si nous sommes relativement certains que le sexe est codè correctement dans les fichiers, nous pourrions ne comparer que les paires d’hommes et de femmes, sèparèment.


Seuils:


La notion de seuil s’illustre bien par un diagramme. Le graphique suivant montre la fonction de frèquence thèorique des poids globaux. Nous voyons que cette fonction est bi-mode. Le premier groupe correspond aux vraies paires, le second aux fausses. Les deux distributions se chevauchent. Il faut choisir deux seuils. Les èlèments au-dessus du seuil supèrieur sont considèrès comme de vraies paires, ceux en dessous du seuil infèrieur comme de vraies non-paires et ceux entre les deux seuils comme des paires possibles. Ces dernières doivent être rèvisèes manuellement afin de dèterminer si elles sont, en rèalitè, de vraies ou de fausses paires. Le seuil doit être dèfini de façon á minimiser le volume de rèvision manuelle, tout en minimisant les erreurs de classification de type I et de type II.


alt text

Évaluation du couplage

Combien de paires avons-nous dècouvert? Avec quelle prècision? Avons-nous crèè beaucoup de fausses paires?

Histogrammes

Cela aide à se décident non seulement pour les niveaux de seuil, mais aide aussi à se décider pour le pouvoir plein de discernement du jeu de règle que nous utilisons. Les deux graphiques suivants l’illustrent. Dans le premier exemple, seulement deux règles sont utilisées dans le calcul du poids global. Nous pouvons voir que la distribution n’est pas bi-modal et distinguer des paires vraies et fausses serait presque impossible. Dans le deuxième exemple, 15 règles sont utilisées et nous pouvons voir que les deux populations sont beaucoup plus facilement séparées.

Exemple 1:

example1
 

Exemple 2:

example1

Taux de couplage

Le nombre de paires crèèes sera gènèralement infèrieur ˆj 100 pour-cent. Mˆ§me avec un grand nombre de règles et un long processus de rèvision manuel, certains couples seront manquès.

Taux d’erreur

Pour chaque zone du graphique, nous pouvons sèlectionner un petit èchantillon de paires et dèterminer par rèvision manuelle le nombre de vraies et de fausses paires. Le nombre de fausses paires au-dessus du seuil supèrieur devrait être proche de 0 %, le taux dans la zone grise plus èlevè; dans la zone en dessous du seuil infèrieur le taux devrait approcher les 100 %. Nous pouvons calculer le nombre de vraies et de fausses paires et estimer la probabilitè pour qu’une paire ait ètè manquèe et la probabilitè pour qu’une fausse paire ait ètè crèèe.

Logiciel

Il est facile de crèer un programme (sous SAS ou Excel) pour effectuer un couplage d’enregistrements. Voici nèanmoins une liste de plusieurs progiciels de couplage d’enregistrements disponibles sur le marchè : LINKS: A Record Linkage Package, GRLS, The Link King: Record Linkage and Consolidation Software, Netrics: Intelligent Record Matching™ software, Identity Search Server, et Surematch.
 

LINKS est un progiciel gratuit de couplage d’enregistrements dèveloppè ˆj l’Universitè du Manitoba; GRLS (Generalized Record Linkage Software) est un progiciel de couplage d’enregistrements dèveloppè et commercialisè par Statistique Canada; Link King est une application SAS/AF gratuite qui utilise les algorithmes probabilistes dèveloppès par MEDSTAT pour le projet de base de donnèes intègrè de la Substance Abuse and Mental Health Administration (SAMHSA); Netrics: Intelligent Record Matching™ software est un logiciel amèricain commercial qui utilise un modˆole de correspondance par apprentissage automatique; Identity Search Server™ (ISS) est un logiciel amèricain commercial qui offre des fonctions de recherche, de mise en correspondance, de dècouverte des doublons et de couplage de relations pour toutes formes de donnèes d’identification á l’aide d’indexes flous; Surematch est un logiciel gratuit qui permet de standardiser, d’effectuer des recherches phonètiques, de mettre en correspondance, de rèviser, de mettre les majuscules correctement et de supprimer les doublons dans une base de donnèes.


Glossaire des termes

Divers termes sont utilisès dans le cadre du couplage d’enregistrements. Certains ont ètè dèfinis dans : Newcombe, H.B. (1988). Handbook of Record Linkage Methods for Health and Statistical Studies, Administration and Business. Oxford, U.K. Oxford University Press, pp. 103-106.
 

Les termes utilisès dans cet ouvrage sont les suivants :
 

Groupage:
 

¡V Utilisation d’informations de mise en sèquence (p. ex., les versions phonètiquement codèes des noms de famille) pour diviser les fichiers en poches. Normalement, les enregistrements ne sont comparès entre eux que s’ils proviennent de la même poche, c.-á-d. que leurs informations de blocage sont identiques. L’objectif est d’èviter d’avoir á comparer les ènormes nombres de paires d’enregistrements qui seraient gènèrès si chaque enregistrement du fichier initiant les recherches pouvait former une paire avec chaque enregistrement du fichier ètudiè.
 

Dènominateur:
 

Cela se rapporte habituellement au dènominateur d’un RAPPORT DE FRÉQUENCE, c.-á-d. la frèquence d’un rèsultat de comparaison donnè entre des paires d’enregistrements NON COUPLÉES regroupèes au hasard. Le terme peut ègalement s’appliquer á l’un de deux composants de toute CHANCE.
 

Rapport de frèquence:
 

Frèquence d’un rèsultat de comparaison donnè entre des paires d’enregistrements correctement COUPLÉES, divisèe par la frèquence correspondante entre des paires NON COUPLÉES regroupèes au hasard. Le rèsultat de comparaison peut se dèfinir de n’importe quelle façon, par exemple en tant que pleine concordance, concordance partielle, non-concordance plus extrême ou par toute combinaison de valeurs pour les deux enregistrements qui sont comparès. Le RAPPORT DE FRÉQUENCE peut être spècifique pour la valeur donnèe d’un identificateur en cas de concordance, pour la valeur de la portion de concordance d’un identificateur en concordance partielle ou encore non spècifique pour la valeur.
 

Frèquence gènèrale:
 

Moyenne pondèrèe des frèquences des diverses valeurs d’un identificateur parmi les enregistrements individuels (c.-á-d. non couplès) du fichier ètudiè. Elle est non spècifique pour la valeur. Les frèquences spècifiques á la valeur sont ègalement obtenues de la même source.
 

Frèquence globale:
 

Frèquence d’un rèsultat de comparaison entre paires d’enregistrements, lorsque ce rèsultat est dèfini en termes non spècifiques pour la valeur de l’identificateur. Le rèsultat peut être une pleine concordance, une concordance partielle or une non-concordance plus extrême. Les paires d’enregistrements peuvent être celles d’un fichier COUPLÉ ou des paires NON COUPLÉES regroupèes au hasard. Dans le cas particulier des rèsultats de pleine concordance, les frèquences globales et gènèrales sont numèriquement ègales, mais elles correspondent á des concepts diffèrents. La frèquence globale, bien qu’elle soit non spècifique pour la valeur, reflète toujours la pleine dèfinition de la portion de non-concordance de cette dèfinition. Une frèquence gènèrale ne le peut pas car elle se fonde sur un fichier d’enregistrements individuels (c.-á-d. non couplès).
 

Rapport de frèquence global:
 

Rapport de la frèquence globale pour un rèsultat de comparaison particulier entre paires d’enregistrements COUPLÉES, divisèe par la frèquence correspondante entre paires NON COUPLÉES. Ceci èquivaut á la CHANCE globale. Les RAPPORTS DE FRÉQUENCE GLOBAUX pour les rèsultats de concordance et de concordance partielle sont souvent convertis par la suite en cette contrepartie spècifique á la valeur pendant le processus de couplage. La conversion se fait par un ajustement vers le haut quand la portion de concordance de l’identificateur a une valeur rare et un ajustement vers le bas quand la valeur est commune.
 

Couplage:
 

Dans le sens le plus large, le COUPLAGE D’ENREGISTREMENTS est le rapprochement d’informations de deux ou plusieurs enregistrements dont on pense qu’ils se rapportent á la même entitè. Dans le cas d’une ètude èconomique ou sociale, les entitès en question peuvent ˆêtre des fermes ou des entreprises. Dans le cas d’une ètude de santè, les entitès d’intèrêt sont gènèralement des individus ou des familles. C’est dans ce dernier sens que le terme est employè dans cet ouvrage.
 

Couplè:
 

Dans le cadre de la dèfinition prècèdente du couplage d’enregistrements, les paires d’enregistrements COUPLÉES sont des paires dont on pense qu’elles se rapportent au même individu ou á la mˆ§me famille (ou autre type d’entitè). Les paires d’enregistrements regroupèes et jugèes ne pas se rapporter au même individu ou á la même famille s’appellent des paires NON COUPLÉES. Les deux sortes de paires sont ègalement parfois appelèes COUPLES ET NON COUPLÉES, respectivement. Í nos fins, le terme implique qu’une dècision a ètè prise concernant l’exactitude probable de la correspondance.
 

En correspondance:
 

Ce terme est utilisè de diffèrentes façons dans la littèrature relative au couplage d’enregistrements. Dans cet ouvrage, cependant, il ne se voit accorder aucune signification technique particuliére et implique simplement la mise en paire d’enregistrements sur la base d’une similaritè (ou dissemblance) donnèe quelconque. Par exemple, au dèbut d’une opèration de couplage, les enregistrements des deux fichiers COUPLÉS sont normalement mis en correspondance pour y rechercher la concordance du code du nom de famille. Les paires rèsultantes peuvent ègalement être appelèes paires candidates pour le couplage, mais cette emphase est plus approprièe dans les phases ultèrieures du processus, lorsque le nombre de paires concurrentes a baissè. On fait souvent rèfèrence aux paires d’enregistrements comme ètant mises en correspondance correctement, faussement mises en correspondance ou mises en correspondance au hasard.
 

Numèrateur:
 

Ceci renvoie habituellement au numèrateur dans un RAPPORT DE FRÉQUENCE, c.-á-d. la frèquence d’un rèsultat de comparaison donnè entre des paires d’enregistrements dont on pense qu’elles sont correctement COUPLÉES. IL peut aussi s’appliquer á l’un des deux composants de toute CHANCE.
 

Chance:
 

Ce mot est utilisè dans son sens ordinaire mais il s’applique dans diverses situations. Concernant un rèsultat particulier de la comparaison d’un identificateur donnè, il est synonyme avec le RAPPORT DE FRÉQUENCE pour ce rèsultat. Concernant les RAPPORTS DE FRÉQUENCE accumulès pour un enregistrement donnè, il se rapporte á la CHANCE RELATIVE totale. Il s’applique aussi á la CHANCE ABSOLUE totale.
 

Rèsultat:
 

Ceci renvoie á tout rèsultat de la comparaison d’un identificateur particulier (ou d’identificateurs enchaînès) sur une paire d’enregistrements ou de la comparaison d’un identificateur particulier sur un enregistrement avec un autre identificateur logiquement connexe sur l’autre. Il peut se dèfinir de presque n’importe quelle façon, par exemple comme une CONCORDANCE, une CONCORDANCE PARTIELLE, une NON-CONCORDANCE plus extrême, toute autre SIMILARITÉ ou DISSEMBLANCE ou encore comment l’absence d’un identificateur sur un enregistrement comparè á sa prèsence ou absence sur l’autre. Un rèsultat peut être spècifique pour une valeur particuliére d’un identificateur (p. ex., telle qu’elle apparaît sur l’enregistrement ètudiè) ou pour toute partie de cet identificateur, surtout en cas de concordance ou de concordance partielle; il peut être non spècifique pour la valeur; il peut aussi être spècifique pour un type particulier de NON-CONCORDANCE dèfini en fonction d’une paire quelconque de valeurs comparèes.
 

Valeur:
 

On dit d’un identificateur (p. ex., une initiale) qu’il a plusieurs valeurs diffèrentes (p. ex., initiale A, initiale B, etc.). Les noms de famille, les prènoms et les lieux de naissance ont de nombreuses valeurs possibles. D’autres identificateurs ont tendance á avoir moins de valeurs qui doivent être distinguèes les une des autres.
 

Poids:
 

Dans la littèrature, ce terme a ètè largement appliquè aux logarithmes de diverses entitès, telles que:

  • un RAPPORT DE FRÉQUENCE pour un rèsultat spècifiè de la comparaison d’un identificateur donnè,
  • le produit de tous les RAPPORTS DE FRÉQUENCE pour une paire d’enregistrements donnèe,
  • le NUMÉRATEUR d’un RAPPORT DE FRÉQUENCE particulier,
  • le DÉNOMINATEUR d’un RAPPORT DE FRÉQUENCE particulier,
  • toute estimation d’un tel numèrateur ou dènominateur, qui n’est pas obtenu directement d’un fichier de paires d’enregistrements mises en correspondance.

L’utilisation du logarithme est une pure convenance de calcul; celui-ci n’affecte en rien la logique sauf pour la faire paraître plus compliquèe. Le terme POIDS a donc ètè employè avec modèration dans cet ouvrage. Nous avons prèfèrè faire rèfèrence directement á la frèquence source, au RAPPORT DE FRÉQUENCE ou aux estimations de ceux-ci, dans la mesure du possible.

 

Research Question: 

Le but de cette étude de cas est d’initier les étudiants aux concepts du couplage d’enregistrements. De nombreux domaines recourent aux techniques de couplage d’enregistrements pour mettre à jour le contenu de registres ou pour combiner les informations contenues dans des registres et des sondages avant d’analyser l’ensemble de données ainsi couplées. Les études de migration et de taux de survie requièrent souvent l’utilisation de techniques de couplage d’enregistrements pour combiner des informations de sources différentes.

 

Variables: 

Les ensembles de données sont composés de données entièrement synthétiques construites à l’aide de SAS 9.1 pour simuler des données de registre aux seules fins de cette étude de cas. Les fichiers synthétiques ont des fréquences de noms, de date de naissance et de date de décès similaires à un échantillon de résidents de la province de l’Île-du-Prince-Édouard. Aucune information relative à des personnes réelles n’est utilisée dans cette étude de cas.
 

Les ensembles de données sont les suivants : registre, naissances, conducteurs et décès. 

Les dispositions de fichiers sont indiquées par: Disposition de Données

Registre

Le registre est une base de données synthétique qui représente la population de l’Î.-P.-É. Le fichier contient ID unique, le nom, date de naissance et renseignements d’adresse pour les résidents dans la province de l’Î.-P.-É. C’est ce fichier que nous souhaitons maintenir pour servir de base à des études actuelles et futures.

Naissances

Dans un registre, les naissances correspondent aux personnes qui entrent dans la population d’intérêt, par exemple en emménageant dans une région d’intérêt ou en atteignant un certain âge. Le fichier de données sur les naissances contient des informations sur les coordonnées actuelles et antérieures des personnes, ainsi que leur nom au complet et leur date de naissance. Puisque les sources de données sont mises à jour de manière indépendante, il est possible que le registre pointe vers l’ancienne adresse ou la nouvelle.

Conducteurs

Les informations contenues dans les fichiers conducteurs aident à saisir les déménagements et les naissances dans un registre. Les résidents du Canada peuvent obtenir un premier permis de conduire, en obtenir un nouveau (dans une autre province) ou mettre à jour leur permis actuel (dans la même province). Ce fichier contient des informations sur les noms, l’adresse et la date de naissance.

Décès

Le fichier décès contient des informations simulées contenues dans un registre d’état civil. Les données incluent les informations suivantes : noms, adresse, date de naissance et date de décès.

 

References: