Near-Equivalent Q-learning Policies for Dynamic Treatment Regimes

Precision medicine aims to tailor treatments to individual patients, particularly in longitudinal settings with multiple decision points. Dynamic Treatment Regimes (DTRs) formalize treatment as a sequence of adaptive decisions evolving with a patient’s clinical trajectory. Standard Q-learning identifies a single “optimal” policy by maximizing the estimated expected outcome. However, this may conceal treatment options that are statistically equivalent in expected benefit, selecting one while masking clinically meaningful flexibility. We introduce Near-Equivalent Q-learning Policies, which characterize a set of statistically near-optimal strategies achieving comparable outcomes. We illustrate the approach in both a longitudinal DTR setting and a single-stage Individualized Treatment Rule (ITR) framework, highlighting ε-equivalent recommendations and patients located at the decision boundary, where several treatment options yield comparable expected outcomes.

Stratégies de Q-learning quasi équivalentes pour les plans de traitement dynamique

La médecine de précision vise à adapter les traitements aux caractéristiques individuelles des patients, en particulier dans des contextes longitudinaux comportant plusieurs points de décision. Les plans de traitement dynamique (DTR) formalisent le traitement comme une séquence de décisions adaptatives évoluant avec la trajectoire clinique du patient. Le Q-learning standard identifie une stratégie « optimale » unique en maximisant l’espérance estimée du résultat. Toutefois, cette approche peut masquer l’existence d’options thérapeutiques statistiquement équivalentes en matière de bénéfice attendu, limitant ainsi la flexibilité clinique.
Nous proposons des stratégies de Q-learning quasi équivalentes, qui caractérisent un ensemble de stratégies statistiquement quasi optimales produisant des résultats comparables. Nous illustrons l'approche dans un cadre longitudinal de plans de traitement dynamique ainsi que dans un cadre à une seule étape d'un plan de soin personnalisé (ITR), en mettant en évidence les recommandations ε-équivalentes et les patients situés à la frontière décisionnelle, pour lesquels plusieurs traitements présentent des performances attendues similaires.

Session

Recent Advances in Dynamic Treatment Regime Inference

Date and Time

Wed, 06/03/2026 - 15:30 - Wed, 06/03/2026 - 16:00

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English