Clustering pour la prédiction du risque cardiovasculaire chez les patients atteints de diabète de type 2 à l’aide de données ECG et DME régulièrement rapportées

2026

Data Source

Dataset: Single csv file (tabular format)

Organizer

Dr. Dina Labib, Dr. James White; Libin Cardiovascular Institute and Nelson PULSE Centre of the Cumming School of Medicine, University of Calgary

Le français suit

Background

Diabetes is a growing global health problem, affecting approximately 830 million individuals world-wide in 2022 (1), with type 2 diabetes accounting for >90% of all cases (2). Diabetes is a major cardiovascular risk factor, with diabetic adults having a two- to four-fold higher cardiovascular risk compared to those without diabetes. Despite advances in care, existing risk prediction models based on demographic and clinical variables remain limited in their ability to accurately identify patients at highest cardiovascular risk.

Routine clinical care generates extensive data, including laboratory tests, diagnostic codes, medication records, and electrocardiographic (ECG) variables. However, these data sources are rarely integrated for disease characterization or risk stratification in type 2 diabetes. A recently developed risk score in these patients based on a traditional Cox model to predict a composite outcome of non-fatal acute myocardial infarction, non-fatal stroke, and all-cause mortality achieved modest performance, with a C-index of 0.74.(3)
This model used 30 routinely collected variables from claims data, inclusive of demographics, cardiovascular risk factors, prior events, and medications.

Clustering, an unsupervised machine learning technique, can uncover hidden structure within complex datasets and has shown promise in identifying phenotypic subgroups across cardiovascular and metabolic disorders. Such approaches may reveal clinically meaningful distinctions that traditional modeling methods overlook.

Few studies have applied clustering specifically to patients with type 2 diabetes, and have typically relied on relatively small cohorts, limited variable sets, or inclusion of advanced biomarkers not routinely available in clinical care. (4–6) Combining routinely captured electronic health record (EHR) data with standard 12-lead ECG variables offers a unique opportunity to identify novel patient subgroups that differ in cardiovascular risk and long-term outcomes. Insights from such analyses could enhance patient stratification, guide personalized management, and inform future prediction models for major adverse cardiovascular events (MACE).

**********************

Contexte

Le diabète est un problème de santé mondial croissant qui touchera environ 830 millions de personnes dans le monde en 2022 (1), le diabète de type 2 représentant plus de 90 % de tous les cas (2). Le diabète est un facteur de risque cardiovasculaire majeur, les adultes diabétiques présentant un risque cardiovasculaire deux à quatre fois plus élevé que les personnes non diabétiques. Malgré les progrès réalisés en matière de soins, les modèles de prédiction des risques existants, basés sur des variables démographiques et cliniques, restent limités dans leur capacité à identifier avec précision les patients présentant le risque cardiovasculaire le plus élevé.

Les soins cliniques de routine génèrent de nombreuses données, notamment des tests de laboratoire, des codes de diagnostic, des dossiers médicaux et des variables électrocardiographiques (ECG). Cependant, ces sources de données sont rarement intégrées pour la caractérisation de la maladie ou la stratification des risques dans le diabète de type 2. Un score de risque récemment développé chez ces patients, basé sur un modèle Cox traditionnel pour prédire un résultat composite d’infarctus aigu du myocarde non mortel, d’accident vasculaire cérébral non mortel et de mortalité toutes causes confondues, a obtenu des performances modestes, avec un indice C de 0,74 (3).
Ce modèle utilisait 30 variables collectées régulièrement à partir des données de remboursement, incluant notamment données démographiques, facteurs de risque cardiovasculaire, événements antérieurs et médicaments.

Le clustering, une technique d’apprentissage automatique non supervisée, permet de mettre au jour des structures cachées dans des ensembles de données complexes et s’est révélé prometteur pour identifier des sous-groupes phénotypiques parmi les troubles cardiovasculaires et métaboliques. De telles approches peuvent révéler des distinctions cliniquement significatives que les méthodes de modélisation traditionnelles négligent.

Peu d’études ont appliqué le clustering spécifiquement aux patients atteints de diabète de type 2, et se sont généralement appuyées sur des cohortes relativement petites, des ensembles de variables limités ou l’inclusion de biomarqueurs avancés qui ne sont pas couramment disponibles dans les soins cliniques. (4-6) La combinaison des données issues des dossiers médicaux électroniques (DME) collectées de manière systématique avec les variables standard de l’ECG à 12 dérivations offre une occasion unique d’identifier de nouveaux sous-groupes de patients qui diffèrent en termes de risque cardiovasculaire et de résultats à long terme. Les informations tirées de ces analyses pourraient améliorer la stratification des patients, orienter la prise en charge personnalisée et éclairer les futurs modèles de prédiction des événements cardiovasculaires majeurs (ECM).

Research Question

Question de l’étude
À partir d’un vaste référentiel de données synthétiques sur la santé des patients atteints de diabète de type 2, comprenant des DME et des variables ECG à 12 dérivations régulièrement rapportées, pouvez-vous effectuer une analyse de regroupement et démontrer son intérêt pour la prédiction précise des ECM chez des patients individuels ?

Remarques :

Le clustering doit intégrer à la fois les données des DME et ECG.
Une exigence clé consiste à démontrer l’utilité clinique en développant une méthode permettant d’attribuer l’appartenance à un cluster à de nouveaux patients (non observés).
Il faut montrer la valeur ajoutée de l’appartenance à un cluster pour prédire les ECM.
Pour la prédiction des ECM, les approches basées sur la classification et sur la survie sont les bienvenues.
Les performances du modèle doivent être évaluées à court terme (1 an), à moyen terme (3 ans) et à long terme (5 ans) à l’aide de mesures appropriées.

Variables

Source et accès aux données
Ensemble de données : Fichier csv unique (format tabulaire)

Cohorte de l’étude : Une cohorte synthétique d’environ 100 000 patients ayant reçu un diagnostic de diabète de type 2 (codé selon la CIM-10-CA) et ayant subi un ECG de référence entre janvier 2010 et janvier 2023, avec un suivi minimum de 12 mois.

Résultat d’intérêt : ECM, défini comme un ensemble d’hospitalisations pour insuffisance cardiaque, de syndromes coronariens aigus, d’arythmies ventriculaires, d’accidents vasculaires cérébraux ischémiques et de mortalité toutes causes confondues.

Caractéristiques : Variables démographiques de base (âge et sexe) ; comorbidités de base et antécédents cardiaques codés selon la CIM-10-CA ; codes de procédure pour les interventions cardiaques antérieures ; variables ECG régulièrement rapportées ; résultats des tests de laboratoire enregistrés au moment de l’ECG ; et médicaments cardiaques actifs prescrits au moment de l’ECG de base.

Remarque : Les données vectorielles brutes des ECG ne sont pas disponibles pour cette étude.

Dictionnaire de données : Veuillez consulter ce lien pour obtenir la liste complète des variables et des définitions.

Accès aux données : Toutes les équipes participantes signeront un accord de confidentialité, après quoi elles auront accès à l’ensemble de données hébergé dans un environnement en ligne sécurisé et protégé par mot de passe. L’ensemble de données sera mis à disposition le 15 janvier 2026.

Références

NCD Risk Factor Collaboration (NCD-RisC). Worldwide trends in diabetes prevalence and treatment from 1990 to 2022: a pooled analysis of 1108 population-representative studies with 141 million participants. Lancet. 2024 Nov 23;404(10467):2077–93.
Green A, Hede SM, Patterson CC, Wild SH, Imperatore G, Roglic G, et al. Type 1 diabetes in 2017: global estimates of incident and prevalent cases in children and adults. Diabetologia. 2021 Dec;64(12):2741–50.
McCoy RG, Swarna KS, Deng Y, Herrin JS, Ross JS, Kent DM, et al. Derivation of an Annualized Claims-Based Major Adverse Cardiovascular Event Estimator in Type 2 Diabetes. JACC: Advances. 2024 Apr;3(4):100852.
Ahlqvist E, Storm P, Käräjämäki A, Martinell M, Dorkhan M, Carlsson A, et al. Novel subgroups of adult-onset diabetes and their association with outcomes: a data-driven cluster analysis of six variables. Lancet Diabetes Endocrinol. 2018 May;6(5):361–9.
Kahkoska AR, Geybels MS, Klein KR, Kreiner FF, Marx N, Nauck MA, et al. Validation of distinct type 2 diabetes clusters and their association with diabetes complications in the DEVOTE, LEADER and SUSTAIN ‐6 cardiovascular outcomes trials. Diabetes Obes Metab. 2020 Sep 18;22(9):1537–47.
Preechasuk L, Khaedon N, Lapinee V, Tangjittipokin W, Srivanichakorn W, Sriwijitkamol A, et al. Cluster analysis of Thai patients with newly diagnosed type 2 diabetes mellitus to predict disease progression and treatment outcomes : A prospective cohort study. BMJ Open Diabetes Res Care. 2022 Dec;10(6).

Points d’évaluation
Votre rapport d’étude de cas et votre affiche doivent inclure :

La ou les questions de recherche que vous avez cherché à aborder dans votre analyse.
Une discussion sur l’impact de vos hypothèses et paramètres et les limites de ce type de modèles.
Au moins une visualisation doit être incluse.
Un résumé des principaux enseignements tirés de votre analyse.

Le concours d’études de cas sera évalué comme suit :

Visualisations créatives des données (23 %)
Pertinence, créativité et compréhension des forces et des limites du modèle proposé (50 %)
Performances du modèle évaluées à l’aide de mesures de performance appropriées (5 %).
Qualité et clarté de la présentation (22 %)

Informations sur le prix
Nous sommes heureux d’annoncer que l’équipe gagnante recevra un prix de 3 000 $. En plus de la récompense financière, les membres de l’équipe gagnante pourraient se voir offrir des opportunités de recherche ou de collaboration.

Remerciements
Cette étude de cas a été préparée par James White, Dina Labib et Jacqueline Flewitt, avec l’aide et les conseils du Comité d’étude de cas de la Société statistique du Canada. Le soutien financier et infrastructurel a été fourni par la Libin Precision Medicine Initiative, un programme mis en place par le Nelson PULSE Centre de la Cumming School of Medicine de l’Université de Calgary. Pour toute question, veuillez contacter le président du Comité des études de cas de la Société statistique du Canada, Chel Hee Lee, par courriel à l’adresse chelhee.lee@ucalgary.ca.