强化学习环境的组成部分:
Action
操作空间允许agent与环境交互的操作。一般情况下,a∈a包含三个动作:a∈{−1,0,1},其中−1,0,1表示卖出、持有和买入。...State
状态空间描述agent从环境中接收的观察值。正如交易者在执行交易之前需要分析各种信息一样,我们的交易agent也观察了许多不同的特征,以便在交互环境中更好地学习。...我们使用一个动作空间{-k,…,- 1,0,1,…,k},其中k表示需要买入的股份数量,-k表示需要卖出的股份数量。...连续动作空间需要归一化到[- 1,1],因为策略是在高斯分布上定义的,需要归一化和对称。
在本文中,我们将k=200设置为AAPL的整个操作空间为:200*2+1=401。...PPO:
A2C:
DDPG:
https://spinningup.openai.com/en/latest/algorithms/td3.html#background
Tensorboard