训练工作室

配置并启动 RL 训练任务

数据源

没有可用的数据集

请先在 Data Pipeline 中获取数据，或切换到 "从 Binance 获取" 模式

数据预处理2 个已启用

原始数据→log_return→rolling_zscore→训练数据

收益率转换

log_return

对数收益率 - 消除价格非平稳性

pct_change

百分比变化 - 简单收益率计算

标准化处理

rolling_zscore

滚动Z标准化 - 保留局部分布

minmax

MinMax归一化 - 缩放到[0,1]区间

global_zscore

全局Z标准化 - 标准化所有数值列 (⚠️与其他标准化冲突)

特征变换

diff

差分 - 一阶差分去趋势

lag

滞后特征 - 添加历史值作为特征

环境配置 (Environment)

初始资金 (Balance)

USDT

手续费率 (Fee Rate)

时间窗口 (Window Size)

训练步数 (Timesteps)

算法 (Algorithm)

Loading algorithms registry...

网络架构 (Network Architecture)

Loading network registry...

MLP Parameters

Policy Head 架构e.g. [128, 128] or [256, 128, 64]

奖励函数 (Reward Function)

Loading rewards registry...

Reward Shaping

交易惩罚 (Trade Penalty)

方向奖励 (Direction Bonus)

Reward Scale (缩放因子)

参数配置 (Hyperparameters)

训练/验证集划分 (Train Split)

80%

80% 用于训练, 20% 用于验证

计算设备 (Device)

Batch Size

Learning Rate

Gamma (Discount Factor)

Entropy Coef

Clip Range

请先选择一个数据集

策略: ppo核心: mlp步数: 100,000

ID: model_20260125_1242

Tora.Alpha