Transformer结构能够建模长期的依赖关系,并且具有良好的伸缩性(可处理不同长度的序列数据)
最初将Transformer运用到强化学习,是通过将自注意力应用到表征学习,来提取实体间的关系,从而更好地进行策略学习。
受到离线强化学习的影响,最近的研究表明,Transformer结构可以直接作为顺序决策的模型,并可扩展到多项任务和领域(这里作者给出了四篇文章)
作者提出了将Transformer应用在强化学习中作为函数逼近器所面临的一些挑战。
-
强化学习智能体的训练目标通常是针对当前策略的函数,这会给Transformer的训练带来非平稳性。
-
现有的强化学习算法在训练过程中对设计选择非常敏感,包括网络架构和容量。也就是说,选择不同的网络架构和容量大小可能会显著影响算法的性能和训练结果。这意味着在应用强化学习算法时,这些设计选择需要经过仔细的考虑和调整,以确保算法能够达到预期的性能水平。
-
Transformer结构的计算和内存开销非常大。
强化学习中网络结构的改进可以分为两类。
一是设计一种新的结构来降低训练策略或是价值函数的难度。二是在研究能否将神经网络中的一些普适技巧运用到强化学习中去,比如说残差连接,归一化,正则化等。
将Transformer运用到监督学习近几年取得了很多成功,但将Transformer运用到强化学习并不容易。
从强化学习角度来看,强化学习算法对神经网络结构非常敏感,强化学习中样本的采样和策略优化给训练带来了不稳定性。
另外强化学习算法在训练时对设计选择非常敏感,尤其是当同时使用自举和离线学习时,当价值估计变得无界时,函数逼近器可能就会发散。
从Transformer的角度来看,Transformer架构存在较大的内存占用和高延迟,这阻碍了算法的高效部署和推断。
该方法早期的成功体现在使用Transformer从散布在agent观测中的变量实体中处理复杂信息。Zambaldi等人最早提出以多头点积注意力来捕获结构化观测的关系推理。这种实体Transformer将观测编码为:
i
的观测
与散布在观测中的实体相似,一些工作利用Transformer来处理其他局部时间序列。Tang等人利用注意力机制来处理传感器的序列数据,并构建了一种具有与输入顺序的置换不变性的策略模型。(在强化学习中,一个置换不变的策略意味着无论怎样对输入的顺序进行交换,策略的输出都应该是相同的。这对于处理多个实体或者序列数据的情况非常有用,可以确保策略的输出不会受到输入顺序的影响,从而提高策略的稳定性和有效性。)
考虑到每个时间步采集到的观测信息可能是多模态的,Team等人利用了一种基于Transformer的结构来融合这些跨模态信息,并且用来表征智能体的状态。
此外近期的强化学习算法还将Vision Transformer融入,来处理图像序列数据。Kalantari等人使用ViT来根据图像输入学习Q值,研究表明可以提升RL算法的采样效率。