强化
学
习
已成为一种主导的决策范式,在许多现实应用中取得令人瞩目的成果。在大规模决策场景中,深度神经网络成为释放
强化
学
习
巨大潜力的关键所在。受自然语言和视觉领域中先进Transformer方法的启发,Transformer和
强化
学
习
的结合,突破了智能决策领域许多瓶颈。本文从基础模型、先进算法、代表性示例、典型应用和挑战分析等层面,归纳总结了基于Transformer的
强化
学
习
方法(TransRL),旨在深入分析当前
强化
学
习
方法的痛点,讨论TransRL如何突破
强化
学
习
范式的局限据我们所知,本文是第一篇系统性回顾基于Transformer的
强化
学
习
方法在智能决策领域应用进展的综述,期望提供一个全面的TransRL讨论基础,推动
强化
学
习
在此领域的应用。
强化
学
习
(reinforcement learning,RL)因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而,基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。
强化
学
习
训练需要大量训练数据,然后模型才能达到合理的性能要求,这使得基于
强化
学
习
的模型不适用于现实环境,尤其在数据昂贵的情况下。本文为基于
强化
学
习
的端到端自动驾驶模型提出一种异步监督
学习
(asynchronous supervised learning,ASL)方法,以解决在实际环境中训练基于
强化
学
习
模型时初始性能差的问题。经过预训练后,模型将被部署到真实车辆上进一步开展
强化
学
习
训练,以适应实际环境并不断突破性能极限。仿真结果表明,在有监督的预训练阶段使用一些演示,可以显著提高
强化
学
习
训练阶段的初始性能和收敛速度。
强化
学
习
行为控制局限于没有群体任务的单个智能体,因为其将行为优先级
学习
建模为马尔可夫决策过程。本文提出一种新颖的多智能体
强化
学
习
行为控制方法,该方法通过执行联合
学习
克服上述缺陷。具体而言,针对一组非线性二阶系统,设计一个多智能体
强化
学
习
任务监管器以在任务层分配行为优先级。通过将行为优先级切换建模为协作式马尔可夫博弈,多智能体
强化
学
习
任务监管器
学习
最优联合行为优先级,以减少对人类智能和高性能计算硬件的依赖。在控制层,设计了一组二阶
强化
学
习
控制器用以
学习
最优控制策略,实现位置和速度信号的同步跟踪。特别地,设计了一组自适应补偿器以保证输入饱和约束。数值仿真结果验证了所提出的多智能体
强化
学
习
行为控制对比有限时间、固有时间和
强化
学
习
行为控制具有更低的切换频率和控制代价。
由于机器
学习
智能和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练回路并利用人类智能进一步提升机器
学习
算法变得至关重要。本研究开发了一种基于实时人类指导(Hug)的深度
强化
学
习
(DRL)方法,用于端到端自动驾驶案例中的策略训练。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证,并与其他最先进的
学习
方法进行了比较。
针对人—多机器人协同系统提出一种基于行为控制框架的带记忆
强化
学
习
任务管理器(RLTS)。由于重复的人工干预,现有人—多机器人协同系统决策时间成本高、任务跟踪误差大,限制了多机器人系统的自主性。提出一种带记忆
强化
学
习
任务管理器,基于零空间行为控制框架融合深度Q-网络和长短时记忆神经网络知识库,实现任务冲突时最优行为优先级调整策略以及降低人为干预频率。当机器人在紧急情况下置信度不足时,所提带记忆
强化
学
习
任务管理器会记忆人类干预历史,在遭遇相同人工干预情况时重新加载历史控制信号。仿真结果验证了该方法的有效性。最后,通过一组受外界噪声和干扰的移动机器人实验,验证了所提带记忆
强化
学
习
任务管理器在不确定现实环境中的有效性。