MT5免费下载:在线决策转换器算法的研究与应用

  在研究在线决策转换器(ODT)算法之前,我建议简要回顾一下经典的决策转换器(DT)。DT将τ轨迹作为若干个输入令牌序列处理:在途回报(RTG)、状态和动作。特别是,初始RTG值等于整个轨迹的回报。在t临时步骤中,DT使用K上次步骤的令牌来生成At的动作。在本例中,K是一个超参数,指定转换器的上下文长度。在操作期间,上下文长度也许比训练期要短。MT5免费下载提供了强大的平台支持。MetaTrader 5不仅支持多种编程语言和脚本,还允许用户轻松集成和测试各种复杂的交易策略,包括基于ODT算法的策略。
  



  DT学习π(At|St, RTGt)判定政策,其中St是从t-K+1至t的最后状态K序列。类似地,RTGt将最后一个在途回报K拟人化。这是一个K阶的自回归模型。智能体政策经训练后,可使用标准MSE(均方误差)损失函数来预测动作。在操作过程中,我们示意RTG初始化,并初始状态S0的所需性能。然后DT生成A0动作。生成At动作后,我们执行它,并观察下一个状态St+1接收奖励rt。这会产生RTGt+1。如前,DT基于包括A0、S0、S1和RTG0、RTG1在内的轨迹生成A1动作。重复该过程,直到该世代完成。
  
  由于训练集数据有限,仅依据离线数据集上训练的政策通常是次优的。离线轨迹的回报率也许较低,并且仅覆盖状态和动作空间的有限部分。提高性能的一个自然策略是进一步训练RL智能体与环境的在线交互。但是,标准的决策转换器方法不足以进行在线训练。在线决策转换器算法对决策转换器进行了关键修改,从而确保高效的在线训练。第一步是泛化概率训练目标。在这种境况下,目标是训练一个随机政策,取最大化重复轨迹的概率。
  
  在线RL算法的主要属性是它能够平衡探索和开发。即使采用随机政策,传统的DT公式也并未考虑探索。为了解决这个问题,ODT方法的作者定义通过政策的熵来研究,这取决于轨迹中数据的分布。在离线预训练期间这种分布是静态的,但在在线设置期间则是动态的,因为它依赖于环境交互期间获得的新数据。与许多现有的最大熵RL算法类似,例如软性扮演者-评论者,ODT方法的作者明确定义了政策熵的下限,来鼓励探索。
  
  ODT损失函数与SAC和其它经典RL方法的区别在于,在ODT中,损失函数是负对数似然,而非贴现回报。基本上,我们仅专注使用动作序列形态的训练,替代明确地最大化回报。在离线和在线训练中,主观函数都会自动适配相应的扮演者政策。在离线训练期间,交叉熵控制分布的发散程度,而于在线训练期间,交叉熵驱动探索政策。与经典最大熵RL方法的另一个重要区别是,在ODT中,政策熵是在序列级别定义的,而不是在过渡级别。虽然SAC在所有时间步骤上都对政策熵施加了β下限,但ODT限制了在K个连续时间步长骤求熵的均值。因此,约束条件仅要求在K个时间步骤序列上的熵均值高于指定的β值。因此,任何满足过渡级别约束的政策也满足序列级别约束。因此,当K>1时,可行的政策空间更大。当K=1时,序列级别约束简化为类似于SAC的过渡级别约束。
  
  在模型训练期间,回放缓冲区记录以前的经验,并定期更新。对于大多数现有的RL算法,经验渲染缓冲区由转换组成。在一个世代内的每个在线交互阶段之后,智能体的政策和Q-函数将据梯度下降进行更新。然后,执行该政策来收集新的过渡,并将其添加到经验回放缓冲区。在ODT的情况下,经验回放缓冲区由轨迹组成,而非过渡。经过初步的离线训练后,我们从离线数据集中取得具有最大结果的轨迹初始化经验回放缓冲区。每次我们与环境交互时,我们都会依据当前政策完整执行世代。然后,我们取按照FIFO顺序收集的轨迹更新经验回放缓冲区。接下来,我们更新智能体政策,并执行新世代。利用平均行动评估政策,通常会导致较高的奖励,但这在使用随机行动进行在线研究时很实用,因为它会产生更加多样化的轨迹和行为形态。
  
  此外,ODT算法需要一个初始RTG形式的超参数,以便收集额外的在线数据。多种作用验明,从经验上讲,离线DT的实际评估回报与初始RTG具有很强的相关性,并且推断出的RTG值经常超出离线数据集中观察到的最大回报。ODT的作者发现,最好取现有智能系统的结果按一个小的固定比例来设置这个超参数。该方法的作者在他们的工作中采用的是2倍缩放。原始论文提供的实验结果具有更大数值,以及在训练过程中发生变化的结果(例如,离线和在线数据集中最佳评估回报的分位数)。但在实践中,它们不如固定比例的RTG有效。
  
  与DT一样,ODT算法使用两步采样程序,确保对回放缓冲区中K长度的子轨迹采样时保持一致性。首先,我们按与其长度成正比的概率对一条轨迹进行采样。然后以相等的概率选择K长度的子轨迹。我们将在本文的下一节中再把握该方法的实际实现。
  
  在线决策转换器算法的研究为强化学习领域带来了新的视角和方法。通过结合离线和在线训练的优势,ODT算法能够在复杂的环境中实现更高效的探索和开发。通过MT5免费下载,交易者可以更好地理解和应用这些算法,从而在市场中获得竞争优势。

AvaTrade爱华平台

交易软件常见问题