Incorporating Missingness in the Generation of Realistic Synthetic Trial Data

The current literature regarding generation of complex, realistic synthetic tabular data, particularly for randomized controlled trials (RCTs), often ignores missing data. However, missing data are common in RCT data and often are not Missing Completely At Random. We bridge the gap of determining how best to generate realistic synthetic data while also accounting for the missingness mechanism. We demonstrate how to generate synthetic missing values while ensuring that synthetic data mimic the targeted real data distribution. We propose and empirically compare several data generation frameworks utilizing various strategies for handling missing data (complete case, inverse probability weighting, and multiple imputation) by quantifying generation performance through a range of metrics. Focusing on the Missing At Random setting, we find that incorporating additional models to account for the missingness always outperformed a complete case approach.

Intégration des données manquantes dans la génération de données synthétiques réalistes pour les essais cliniques

La littérature actuelle sur la génération de données tabulaires synthétiques complexes et réalistes, en particulier pour les essais contrôlés randomisés (ECR), ignore souvent les données manquantes. Cependant, les données manquantes sont courantes dans les données des ECR et ne sont généralement pas manquantes de manière complètement aléatoire. Nous comblons cette lacune en déterminant la meilleure façon de générer des données synthétiques réalistes tout en tenant compte du mécanisme de données manquantes. Nous montrons comment générer des valeurs manquantes synthétiques tout en veillant à ce que les données synthétiques imitent la distribution des données réelles. Nous proposons et comparons empiriquement plusieurs cadres de génération de données utilisant diverses stratégies pour traiter les données manquantes (cas complets, pondération par la probabilité inverse et imputation multiple) en quantifiant les performances de génération à l'aide d'une série de mesures. En nous concentrant sur le contexte « manquantes de manière aléatoire », nous constatons que l'intégration de modèles supplémentaires pour tenir compte des données manquantes donne toujours de meilleurs résultats qu'une approche par cas complets.

Session

Student Research Presentation Award Competition in Biostatistics I

Date and Time