From: Jérôme Benoit <jerome.benoit@piment-noir.org>
Date: Sat, 11 Oct 2025 19:18:58 +0000 (+0200)
Subject: fix(reforcexy): use a stable reward metric for optuna best trial
X-Git-Url: https://git.piment-noir.org/?a=commitdiff_plain;h=9b7fb4bcee63f6276c4af2da962ecae02dc07a98;p=freqai-strategies.git

fix(reforcexy): use a stable reward metric for optuna best trial
		selection

Signed-off-by: Jérôme Benoit <jerome.benoit@piment-noir.org>
---

diff --git a/ReforceXY/user_data/freqaimodels/ReforceXY.py b/ReforceXY/user_data/freqaimodels/ReforceXY.py
index 503551e..1388032 100644
--- a/ReforceXY/user_data/freqaimodels/ReforceXY.py
+++ b/ReforceXY/user_data/freqaimodels/ReforceXY.py
@@ -1232,7 +1232,7 @@ class ReforceXY(BaseReinforcementLearningModel):
         if self.optuna_eval_callback.is_pruned:
             raise TrialPruned()
 
-        return self.optuna_eval_callback.last_mean_reward
+        return self.optuna_eval_callback.best_mean_reward
 
     def close_envs(self) -> None:
         """