Imitation Learning with Latent Market Parameters in Continuous-Time Portfolio Control
We study imitation learning in continuous-time portfolio control using the Merton model and its jump-diffusion extension. While behavioral cloning (BC) accurately fits expert actions on expert-generated states, it becomes unstable under distribution shift induced by its own control decisions, particularly in the presence of jump risk. We show that Dataset Aggregation (DAgger) significantly improves stability and robustness by iteratively correcting off-support errors. Under model misspecification, compounding control errors are amplified, highlighting the sensitivity of financial dynamics to policy deviations. Finally, we demonstrate that imitation-based pretraining stabilizes and accelerates PPO compared to training from scratch. Our results position imitation learning as a robustness mechanism in financial sequential decision-making under uncertainty.
Apprentissage par imitation avec paramètres de marché latents dans le contrôle de portefeuille en temps continu
Nous étudions l'apprentissage par imitation dans le contrôle de portefeuille en temps continu à l'aide du modèle de Merton et de son extension par diffusion avec sauts. Si le clonage comportemental (BC) s'adapte bien aux actions des experts sur les états générés par ces derniers, il devient instable en cas de changement de distribution induit par ses propres décisions de contrôle, en particulier en présence d'un risque de saut. Nous montrons que l'agrégation de données (DAgger) améliore considérablement la stabilité et la robustesse en corrigeant de manière itérative les erreurs hors support. En cas de spécification erronée du modèle, les erreurs de contrôle composées sont amplifiées, ce qui met en évidence la sensibilité de la dynamique financière aux écarts par rapport à la politique. Enfin, nous démontrons que le pré-entraînement basé sur l'imitation stabilise et accélère le PPO par rapport à un entraînement à partir de zéro. Nos résultats positionnent l'apprentissage par imitation comme un mécanisme de robustesse dans la prise de décision financière séquentielle en situation d'incertitude.
Date and Time
-
Language of Oral Presentation
English
Language of Visual Aids
English