Probabilistic Record Linkage for Social Data: Can the Past Guide the Present?
An organization receives Tables A and B containing social data. For each Table A respondent, the analyst executes a probabilistic record linkage process: indicating if that person also responded on Table B whilst assigning a probability to that event. Each year, project turnaround time is brief. Moreover, the demographic features of Tables A and B have changed little over the past 5 years. Should the analyst use the same process parameterization today as that from 5 years ago, or is that outdated? The speaker posits a cyclical review of the process every 1-3 years, based on a new motivating example. In the example, time evolution is introduced to the linkage process of Fellegi and Sunter (1969) via a hidden Markov model. The innovation distribution belongs to the family introduced in the Ph.D. dissertation of speaker, which has the consequence that the cyclical review hypothesis holds despite the diverse distributional behaviours of demographic variables.
Couplage probabiliste des enregistrements pour les données sociales : le passé peut-il guider le présent ?
Une organisation reçoit les tableaux A et B, qui contiennent des données sociales. Pour chaque répondant du tableau A, l'analyste exécute un processus probabiliste de couplage d’enregistrements; puis, il indique avec une probabilité si cette personne a également répondu au tableau B. Chaque année il n'y a pas beaucoup de temps pour compléter le projet, or les caractéristiques démographiques n'ont pas beaucoup changé depuis cinq ans sur les tableaux A et B. L'analyste doit-il utiliser aujourd'hui les mêmes paramètres de processus qu'il y a cinq ans, ou ceux-ci sont-ils désormais obsolètes ? Le présentateur propose une révision cyclique du processus tous les 1 à 3 ans, sur la base d'un nouvel exemple motivant. Dans cet exemple, l'évolution temporelle est introduite dans le processus de Fellegi et Sunter (1969) via un modèle de Markov caché. La distribution des innovations appartient à la famille introduite dans la thèse de doctorat du présentateur, pour laquelle l'hypothèse de révision cyclique se vérifie malgré les comportements divers de distribution des variables démographiques.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English