Interpretable Offline Reinforcement Learning with Behaviour Regularization for Composite Clinical Objectives

Sepsis management in critical care is a sequential decision problem balancing survival and length of stay (LOS). Using MIMIC-IV (37,054 adult sepsis ICU admissions; 90-day mortality 23%), we develop an offline reinforcement learning (RL) framework for a composite survival–LOS objective, with log-scaled terminal shaping for heavy-tailed LOS. To limit extrapolation, we regularize toward clinician actions with a Kullback–Leibler (KL) penalty. On held-out data, weighted importance sampling (WIS) with overlap diagnostics estimates policy value; survivor LOS is estimated counterfactually. Shapley Value–based Expected Return Learning (SVERL) explains return and actions. Our most stable policy improves WIS value from 65 to 83 and reduces survivor LOS by 0.96 days without degrading survival-oriented return. Our framework demonstrates that constrained offline RL can identify clinically safer, multi-objective treatment strategies that improve efficiency without compromising patient survival.

Apprentissage par renforcement hors ligne interprétable avec régularisation du comportement pour objectifs cliniques composites

La prise en charge de la septicémie en soins intensifs est un problème de décision séquentielle qui consiste à trouver un équilibre entre la survie et la durée du séjour (LOS). À l'aide de MIMIC-IV (37 054 admissions d'adultes atteints de septicémie en soins intensifs ; mortalité à 90 jours de 23 %), nous développons un cadre d'apprentissage par renforcement (RL) hors ligne pour un objectif composite de survie-LOS, avec un modelage terminal à échelle logarithmique pour les LOS à queue lourde. Afin de limiter l'extrapolation, nous régularisons les actions des cliniciens à l'aide d'une pénalité de Kullback-Leibler (KL). Sur les données retenues, l'échantillonnage pondéré par importance (WIS) avec diagnostics de chevauchement estime la valeur de la politique ; la durée du séjour des survivants est estimée de manière contrefactuelle. L'apprentissage du rendement attendu basé sur la valeur de Shapley (SVERL) explique le rendement et les actions. Notre politique la plus stable améliore la valeur WIS de 65 à 83 et réduit la durée de séjour des survivants de 0,96 jour sans dégrader le rendement visant la survie. Notre cadre démontre que le RL hors ligne contraint peut identifier des stratégies de traitement multi-objectifs cliniquement plus sûres qui améliorent l'efficacité sans compromettre la survie des patients.

Session

Concours pour le Prix de la présentation par un nouveau chercheur en science des données et analyse de données

Date and Time