From af4f9aea5a36b46ae13cd2d336316fb91fbd7c35 Mon Sep 17 00:00:00 2001
From: =?utf8?q?J=C3=A9r=C3=B4me=20Benoit?= <jerome.benoit@piment-noir.org>
Date: Tue, 7 Oct 2025 01:11:04 +0200
Subject: [PATCH] docs(reforcexy): improve win_reward_factor documentation
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

Signed-off-by: JÃ©rÃ´me Benoit <jerome.benoit@piment-noir.org>
---
 ReforceXY/reward_space_analysis/README.md                | 4 ++--
 ReforceXY/reward_space_analysis/reward_space_analysis.py | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/ReforceXY/reward_space_analysis/README.md b/ReforceXY/reward_space_analysis/README.md
index 683ab27..d657c78 100644
--- a/ReforceXY/reward_space_analysis/README.md
+++ b/ReforceXY/reward_space_analysis/README.md
@@ -268,7 +268,7 @@ _Efficiency configuration:_
 
 _Profit factor configuration:_
 
-- `win_reward_factor` (default: 2.0) - Amplification for PnL above target (no upper bound; effective profit_target_factor â [1, 1 + win_reward_factor] because tanh â¤ 1)
+- `win_reward_factor` (default: 2.0) - Asymptotic bonus multiplier for PnL above target. Raw `profit_target_factor` â [1, 1 + win_reward_factor] (tanh bounds it); overall amplification may exceed this once multiplied by `efficiency_factor`.
 - `pnl_factor_beta` (default: 0.5) - Sensitivity of amplification around target
 
 _Invariant / safety controls:_
@@ -704,7 +704,7 @@ Before simulation (early in `main()`), `validate_reward_parameters` enforces num
 | `exit_half_life` | 1e-6 | â | Half-life in duration ratio units |
 | `efficiency_weight` | 0.0 | 2.0 | Blend weight |
 | `efficiency_center` | 0.0 | 1.0 | Linear pivot (efficiency ratio center) |
-| `win_reward_factor` | 0.0 | â | Amplification for pnl above target |
+| `win_reward_factor` | 0.0 | â | Asymptotic bonus multiplier for pnl above target |
 | `pnl_factor_beta` | 1e-6 | â | Sensitivity â¥ tiny positive |
 
 Non-finite inputs are reset to the applicable minimum (or 0.0 if only a maximum is declared) and logged as adjustments.
diff --git a/ReforceXY/reward_space_analysis/reward_space_analysis.py b/ReforceXY/reward_space_analysis/reward_space_analysis.py
index 17fdc55..cdddc64 100644
--- a/ReforceXY/reward_space_analysis/reward_space_analysis.py
+++ b/ReforceXY/reward_space_analysis/reward_space_analysis.py
@@ -166,7 +166,7 @@ DEFAULT_MODEL_REWARD_PARAMETERS_HELP: Dict[str, str] = {
     "exit_half_life": "Half-life for exponential decay exit mode.",
     "efficiency_weight": "Weight for efficiency factor in exit reward.",
     "efficiency_center": "Pivot (in [0,1]) for linear efficiency factor; efficiency_ratio above this increases factor, below decreases.",
-    "win_reward_factor": "Amplification for pnl above target (no hard cap; asymptotic).",
+    "win_reward_factor": "Asymptotic bonus multiplier for pnl above target: approaches (1 + win_reward_factor); combined with efficiency_factor the final product can exceed this bound.",
     "pnl_factor_beta": "Sensitivity of amplification around target.",
     "check_invariants": "Boolean flag (true/false) to enable runtime invariant & safety checks.",
     "exit_factor_threshold": "If |exit factor| exceeds this threshold, emit warning.",
-- 
2.53.0