Optimizing Monthly Patient Education Allocation Using Q-Learning

Asthma-related readmissions remain a major challenge and can be reduced through targeted education interventions. However, due to limited resources, education can only be offered to a subset of patients. Risk stratification based on machine learning risk prediction models is commonly used to prioritize high-risk patients by applying thresholds to predicted risk. We propose a dynamic monthly threshold selection policy to allocate limited educational capacity over a 12-month horizon. Eligibility is determined each month until quarterly capacity is exhausted, and untreated patients enter a waiting queue. Using backward-induction Q-learning with linear and random forest models and a customized reward function that accounts for intervention timeliness, we learn dynamic allocation policies from real pediatric data. The random forest Q-model generally outperforms the linear model, and learned dynamic policies often improve upon fixed threshold strategies.

Optimisation de l'allocation mensuelle pour l'éducation des patients à l'aide de l'apprentissage Q

Les réadmissions liées à l'asthme restent un défi majeur qui peut être minimisé par des interventions pédagogiques ciblées. Cependant, en raison de ressources limitées, l'éducation ne peut être offerte qu'à un sous-ensemble de patients. La stratification des risques basée sur des modèles de prévision des risques par apprentissage automatique est couramment utilisée pour hiérarchiser les patients à haut risque en appliquant des seuils au risque prédit. Nous proposons une politique dynamique de sélection mensuelle des seuils afin d'allouer une capacité pédagogique limitée sur un horizon de 12 mois. L'éligibilité est déterminée chaque mois jusqu'à épuisement de la capacité trimestrielle, et les patients non traités sont placés sur une liste d'attente. À l'aide d'un apprentissage Q par induction arrière avec des modèles linéaires et de forêt aléatoire et une fonction de récompense personnalisée qui tient compte de la rapidité d'intervention, nous apprenons des politiques d'allocation dynamiques à partir de données pédiatriques réelles. Le modèle Q aléatoire est généralement plus performant que le modèle linéaire, et les politiques dynamiques apprises améliorent souvent les stratégies à seuil fixe.

Session

Student Research Poster Presentation Award Competition

Date and Time