Rewards Construction based on Preference Learning for Dynamic Treatment Regimes

Precision medicine aims to tailor treatments to patients at each stage of chronic disease, formalized by Dynamic Treatment Regimes (DTR). The goal is to define a decision rule from clinical data to optimize treatment effectiveness. Reinforcement learning is used to derive these strategies through quantitative evaluations called rewards. Traditionally, experts define rewards based on a specific variable of interest, which can limit the learning of optimal decision rules. We propose a generalized approach based on preference learning. Using the Bradley-Terry probabilistic model, we convert pairwise comparisons of medical trajectories made by a clinician into ordinal and quantitative rewards. This method is illustrated with two simulations: the treatment of obesity and cancer.

Construction de récompenses par apprentissage par préférences appliqués aux stratégies de traitements adaptatifs

Délivrer des traitements personnalisés à chaque étape des maladies chroniques est un objectif clé de la médecine de précision qui est formalisé par les "Dynamic Treatment Regimes". Ce cadre adapte les stratégies de traitement en se basant sur des règles de décision apprises à partir d'essais cliniques pour améliorer l'efficacité du traitement. L'utilisation de l'apprentissage par renforcement aide à déterminer ces règles en se basant sur leurs données individuelles et de leurs historiques médicaux. L'apprentissage de la stratégie de traitement repose sur des évaluations quantitatives du système appelées récompenses. Traditionnellement, ces récompenses sont déterminées par des experts qui sélectionnent une variable d'intérêt, mais qui peut être trop restrictive pour l'apprentissage de la règle de décision. Nous proposons une approche automatique et généralisée pour construire les récompenses, en utilisant l'apprentissage par préférences ou "Preference Learning". Basé sur le modèle probabiliste de Bradley-Terry, les comparaisons par paires exprimées par un médecin entre les trajectoires médicales de deux patients sont converties en récompenses quantitatives et ordinales. Cette méthode est illustrée par deux applications simulées : le traitement des patients atteints d'obésité et le traitement des patients atteints de cancer.

Session

New Frontiers in Biostatistical Methods

Date and Time