Search | Engineering | CAE

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

干练的消炎药 · 连带勒让德函数 - MATLAB legendre· 6 月前 ·

伤情的豆腐 · 金钟奖综艺节目主持人奖_搜狗百科· 1 年前 ·

豪情万千的眼镜 · 亲爱的杀手高清完整版免费在线观看 - 奈飞中文· 1 年前 ·

帅气的佛珠 · 开发中巧用Enum枚举类型-腾讯云开发者社区 ...· 1 年前 ·

满身肌肉的眼镜 · 《盲战》希娜又飒又欲,扮演者杨杏个人资料以及 ...· 1 年前 ·

强化学习已成为一种主导的决策范式，在许多现实应用中取得令人瞩目的成果。在大规模决策场景中，深度神经网络成为释放强化学习巨大潜力的关键所在。受自然语言和视觉领域中先进Transformer方法的启发，Transformer和强化学习的结合，突破了智能决策领域许多瓶颈。本文从基础模型、先进算法、代表性示例、典型应用和挑战分析等层面，归纳总结了基于Transformer的强化学习方法（TransRL），旨在深入分析当前强化学习方法的痛点，讨论TransRL如何突破强化学习范式的局限据我们所知，本文是第一篇系统性回顾基于Transformer的强化学习方法在智能决策领域应用进展的综述，期望提供一个全面的TransRL讨论基础，推动强化学习在此领域的应用。强化学习（reinforcement learning，RL）因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而，基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据，然后模型才能达到合理的性能要求，这使得基于强化学习的模型不适用于现实环境，尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习（asynchronous supervised learning，ASL）方法，以解决在实际环境中训练基于强化学习模型时初始性能差的问题。经过预训练后，模型将被部署到真实车辆上进一步开展强化学习训练，以适应实际环境并不断突破性能极限。仿真结果表明，在有监督的预训练阶段使用一些演示，可以显著提高强化学习训练阶段的初始性能和收敛速度。强化学习行为控制局限于没有群体任务的单个智能体，因为其将行为优先级学习建模为马尔可夫决策过程。本文提出一种新颖的多智能体强化学习行为控制方法，该方法通过执行联合学习克服上述缺陷。具体而言，针对一组非线性二阶系统，设计一个多智能体强化学习任务监管器以在任务层分配行为优先级。通过将行为优先级切换建模为协作式马尔可夫博弈，多智能体强化学习任务监管器学习最优联合行为优先级，以减少对人类智能和高性能计算硬件的依赖。在控制层，设计了一组二阶强化学习控制器用以学习最优控制策略，实现位置和速度信号的同步跟踪。特别地，设计了一组自适应补偿器以保证输入饱和约束。数值仿真结果验证了所提出的多智能体强化学习行为控制对比有限时间、固有时间和强化学习行为控制具有更低的切换频率和控制代价。

由于机器学习智能和能力有限，它目前仍无法处理各种情况，因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性，所以将人类引入人工智能（AI）的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导（Hug）的深度强化学习
（DRL）方法，用于端到端自动驾驶案例中的策略训练。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证，并与其他最先进的学习方法进行了比较。针对人—多机器人协同系统提出一种基于行为控制框架的带记忆强化学习任务管理器（RLTS）。由于重复的人工干预，现有人—多机器人协同系统决策时间成本高、任务跟踪误差大，限制了多机器人系统的自主性。提出一种带记忆强化学习任务管理器，基于零空间行为控制框架融合深度Q-网络和长短时记忆神经网络知识库，实现任务冲突时最优行为优先级调整策略以及降低人为干预频率。当机器人在紧急情况下置信度不足时，所提带记忆强化学习任务管理器会记忆人类干预历史，在遭遇相同人工干预情况时重新加载历史控制信号。仿真结果验证了该方法的有效性。最后，通过一组受外界噪声和干扰的移动机器人实验，验证了所提带记忆强化学习任务管理器在不确定现实环境中的有效性。