fix(reforcexy): use a stable reward metric for optuna best trial

author Jérôme Benoit <jerome.benoit@piment-noir.org>

Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)

committer Jérôme Benoit <jerome.benoit@piment-noir.org>

Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)
author Jérôme Benoit <jerome.benoit@piment-noir.org>
Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)
committer Jérôme Benoit <jerome.benoit@piment-noir.org>
Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)
diff --git a/ReforceXY/user_data/freqaimodels/ReforceXY.py b/ReforceXY/user_data/freqaimodels/ReforceXY.py

index 503551ecd34df8d7b8296c8f6b250609186dfabb..1388032393dc9437002bb35ef61a5362bd0c7b04 100644 (file)
--- a/ReforceXY/user_data/freqaimodels/ReforceXY.py
+++ b/ReforceXY/user_data/freqaimodels/ReforceXY.py
@@ -1232,7 +1232,7 @@ class ReforceXY(BaseReinforcementLearningModel):
          if self.optuna_eval_callback.is_pruned:
              raise TrialPruned()
  
-        return self.optuna_eval_callback.last_mean_reward
+        return self.optuna_eval_callback.best_mean_reward
  
      def close_envs(self) -> None:
          """
author	Jérôme Benoit <jerome.benoit@piment-noir.org>
	Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)
committer	Jérôme Benoit <jerome.benoit@piment-noir.org>
	Sat, 11 Oct 2025 19:18:58 +0000 (21:18 +0200)