From b99e416262cc50c3903003d26e142d9f0c5b3ddc Mon Sep 17 00:00:00 2001
From: =?utf8?q?J=C3=A9r=C3=B4me=20Benoit?= <jerome.benoit@piment-noir.org>
Date: Mon, 6 Oct 2025 15:05:40 +0200
Subject: [PATCH] docs(reward): condense README to specification format per
 documentation directives

---
 ReforceXY/reward_space_analysis/README.md | 84 ++++++++++++++++++++++-
 1 file changed, 83 insertions(+), 1 deletion(-)

diff --git a/ReforceXY/reward_space_analysis/README.md b/ReforceXY/reward_space_analysis/README.md
index 82b60b2..0adc8ae 100644
--- a/ReforceXY/reward_space_analysis/README.md
+++ b/ReforceXY/reward_space_analysis/README.md
@@ -1,3 +1,85 @@
+# Reward Space Analysis (Specification)
+Concise operational guide. No marketing language. Single source of truth for tunables and validation guarantees. Exit factor parity date: 2025â10â06.
+## 1. PrÃ©requis
+Python â¥3.8. Recommended: 8GB RAM. GPU non requis.
+Setup minimal:
+```shell
+cd ReforceXY/reward_space_analysis
+python -m venv .venv
+source .venv/bin/activate
+pip install pandas numpy scipy scikit-learn
+Run:
+```shell
+python reward_space_analysis.py --num_samples 20000 --output run1
+python test_reward_space_analysis.py
+## 2. Commandes Rapides
+Basique:
+```shell
+python reward_space_analysis.py --num_samples 10000
+```
+SensibilitÃ© `win_reward_factor`:
+```shell
+python reward_space_analysis.py --num_samples 30000 --params win_reward_factor=2.0 --output wf2
+python reward_space_analysis.py --num_samples 30000 --params win_reward_factor=4.0 --output wf4
+```
+Comparaison rÃ©el vs synthÃ©tique:
+```shell
+python reward_space_analysis.py --num_samples 80000 --real_episodes ../user_data/models/ReforceXY-PPO/*/episode_rewards.pkl --output real_vs_syn
+```
+Batch simple:
+```shell
+for f in 1.5 2 3; do python reward_space_analysis.py --num_samples 20000 --params win_reward_factor=$f --output wf_$f; done
+```
+## 3. ParamÃ¨tres (Tous optionnels)
+ParamÃ¨tres CLI explicites + overrides `--params key=value`. Precedence: individual flag < `--params`.
+| Name | Default | Min | Max | Notes |
+|------|---------|-----|-----|-------|
+| num_samples | 20000 | 1 | â | Nombre d'Ã©chantillons synthÃ©tiques |
+| seed | 42 | 0 | â | Graine globale (simulation + RF) |
+| stats_seed | (seed) | 0 | â | Graine analytique (tests / bootstrap) |
+| max_trade_duration | 128 | 1 | â | DurÃ©e trade rÃ©fÃ©rence |
+| holding_max_ratio | 2.5 | >0 | â | Ãtendue d'Ã©chantillonnage durÃ©es |
+| pnl_base_std | 0.02 | 0 | â | VolatilitÃ© de base PnL |
+| pnl_duration_vol_scale | 0.5 | 0 | â | Amplification hÃ©tÃ©roscÃ©dasticitÃ© |
+| trading_mode | spot | â | â | spot|margin|futures |
+| action_masking | true | â | â | BoolÃ©en |
+| base_factor | 100.0 | 0 | â | Facteur commun |
+| profit_target | 0.03 | 0 | â | Objectif profit |
+| risk_reward_ratio | 1.0 | 0 | â | Multiplicateur objectif |
+| invalid_action | -2.0 | â | 0 | PÃ©nalitÃ© action invalide |
+| idle_penalty_scale | 1.0 | 0 | â | Ãchelle idle |
+| idle_penalty_power | 1.0 | 0 | â | Puissance idle |
+| max_idle_duration_candles | 0 | 0 | â | 0 â fallback max_trade_duration |
+| holding_penalty_scale | 0.5 | 0 | â | Ãchelle holding |
+| holding_penalty_power | 1.0 | 0 | â | Puissance holding |
+| exit_factor_mode | piecewise | â | â | legacy|sqrt|linear|power|piecewise|half_life |
+| exit_linear_slope | 1.0 | 0 | â | Pente linÃ©aire |
+| exit_piecewise_grace | 1.0 | 0 | â | FrontiÃ¨re sans attÃ©nuation (>1 acceptÃ©) |
+| exit_piecewise_slope | 1.0 | 0 | â | Pente aprÃ¨s grÃ¢ce (0=plat) |
+| exit_power_tau | 0.5 | >0 | 1 | Tau â alpha = -ln(tau)/ln 2 |
+| exit_half_life | 0.5 | >0 | â | Demiâvie exponentielle |
+| exit_factor_threshold | 10000 | >0 | â | Seuil warning-only |
+| efficiency_weight | 0.75 | 0 | 2 | PondÃ©ration efficacitÃ© |
+| efficiency_center | 0.75 | 0 | 1 | Centre sigmoÃ¯de |
+| win_reward_factor | 2.0 | 0 | â | Amplification asymptotique (1+val) |
+| pnl_factor_beta | 0.5 | >0 | â | SensibilitÃ© tanh |
+| check_invariants | true | â | â | Active validations runtime |
+Notes:
+- `win_reward_factor` non plafonnÃ© mais borne effective via tanh.
+- `exit_piecewise_grace` >1 Ã©tend la zone plein facteur.
+- `exit_factor_threshold` gÃ©nÃ¨re un RuntimeWarning uniquement.
+## 4. ReproductibilitÃ©
+## 5. Overrides
+## 6. Exemples
+## 7. RÃ©sultats (Artifacts)
+## 8. AvancÃ©
+## 9. Tests
+## 10. DÃ©pannage (CondensÃ©)
+## 11. RÃ©fÃ©rence Rapide
+### Couches de Validation
+### MÃ©thodes Statistiques
+### Validation ParamÃ¨tres
+#### Bornes (rappel)
 # ð Reward Space Analysis - User Guide
 
 **Analyze and validate ReforceXY reward logic with synthetic data**
@@ -670,7 +752,7 @@ Design intent: maintain a single canonical defaults map + explicit bounds; no si
 | `exit_half_life` | 1e-6 | â | Half-life in duration ratio units |
 | `efficiency_weight` | 0.0 | 2.0 | Blend weight |
 | `efficiency_center` | 0.0 | 1.0 | Sigmoid center |
-| `win_reward_factor` | 0.0 | â | Amplification â¥ 0 (no upper cap; asymptotic multiplier 1+win_reward_factor) |
+| `win_reward_factor` | 0.0 | â | Amplification â¥ 0 |
 | `pnl_factor_beta` | 1e-6 | â | Sensitivity â¥ tiny positive |
 
 Non-finite inputs are reset to the applicable minimum (or 0.0 if only a maximum is declared) and logged as adjustments.
-- 
2.43.0