fix(ReforceXY): reset last reward shaping on neutral self loop

author Jérôme Benoit <jerome.benoit@piment-noir.org>

Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)

committer Jérôme Benoit <jerome.benoit@piment-noir.org>

Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)
author Jérôme Benoit <jerome.benoit@piment-noir.org>
Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)
committer Jérôme Benoit <jerome.benoit@piment-noir.org>
Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)
diff --git a/ReforceXY/user_data/freqaimodels/ReforceXY.py b/ReforceXY/user_data/freqaimodels/ReforceXY.py

index dbde6c63e607128e35c698dcc00d54a2f2b97dee..db83ef140cf6c1a45bbeff2a8a498836ed20805f 100644 (file)
--- a/ReforceXY/user_data/freqaimodels/ReforceXY.py
+++ b/ReforceXY/user_data/freqaimodels/ReforceXY.py
@@ -2351,6 +2351,7 @@ class MyRLEnv(Base5ActionRLEnv):
              self._last_next_potential = float(self._last_potential)
              self._last_entry_additive = 0.0
              self._last_exit_additive = 0.0
+            self._last_reward_shaping = 0.0
              return base_reward
  
      def _set_observation_space(self) -> None:
author	Jérôme Benoit <jerome.benoit@piment-noir.org>
	Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)
committer	Jérôme Benoit <jerome.benoit@piment-noir.org>
	Mon, 22 Dec 2025 19:02:33 +0000 (20:02 +0100)