Using Machine Learning Models to Catch Mistakes in Coding of Open-Ended Survey Questions

Text from open-ended survey questions can be difficult to analyze. As a starting point, one can employ a coder to manually code each text ('single-coding'). A second, independent coder ('double-coding') can detect potential mistakes made by the first whenever the two coders disagree. In practice, we expect to have very few, if any, double-coded texts, as it is typically more cost-effective to invest in additional single-coding. This paper investigates whether the mistake-catching property of double-coding is achievable when only single-coded data is available. To do so, we train machine learning models using the coder's own codes ('self-trained') and take predictions from the model to simulate a second coder. We compare with models trained on codes from another human coder ('else-trained'). Results show that mistake-catching is not only possible with single-coded data, but in fact performs similarly to using an equivalent amount of double-coded data.

Utilisation de modèles d’apprentissage automatique pour détecter les erreurs de codage des questions d’enquête ouvertes

Le texte des questions ouvertes d’une enquête peut être difficile à analyser. Pour commencer, on peut employer un codeur pour coder manuellement chaque texte (« codage unique »). Un deuxième codeur indépendant (« double codage ») peut détecter les erreurs potentielles commises par le premier lorsque les deux codeurs ne sont pas d’accord. En pratique, nous nous attendons à n’avoir que très peu de textes à double codage, voire aucun, car il est généralement plus rentable d’investir dans un codage unique supplémentaire. Cet article cherche à déterminer si la propriété de rattrapage d’erreurs du double codage est réalisable lorsque seules des données à codage unique sont disponibles. Pour ce faire, nous formons des modèles d’apprentissage automatique en utilisant les propres codes du codeur (« autoapprentissage ») et nous utilisons les prédictions du modèle pour simuler un deuxième codeur. Nous comparons avec des modèles formés sur les codes d’un autre codeur humain (« apprentissage par autrui »). Les résultats montrent que le rattrapage des erreurs n’est pas seulement possible avec des données à code unique, mais qu’il donne en fait des résultats similaires à ceux obtenus en utilisant une quantité équivalente de données à double code.

Session

Défis et opportunités actuels en matière de mesure de la qualité des statistiques d'enquête

Date and Time

mar 27/05/2025 - 13:30 - mar 27/05/2025 - 14:00

Co-auteurs (non y compris vous-même)

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker