安静的手套 · 强化学习如何做数据分析?新加坡国立等TKDE ...· 3 周前 · |
非常酷的匕首 · 王树森:学 DRL ...· 3 周前 · |
英勇无比的移动电源 · 王树森:学 DRL ...· 3 周前 · |
傻傻的小蝌蚪 · 强化学习相关资料(书籍,课程,网址,笔记等) ...· 3 周前 · |
八块腹肌的眼镜 · 电网中的图强化学习:一项调查研究 | ...· 4 周前 · |
含蓄的眼镜 · 系统运行 | 千丝物芯文档· 3 月前 · |
爱吹牛的墨镜 · 在用了四年后,我为什么放弃使用 ...· 4 月前 · |
跑龙套的圣诞树 · [OpenSIPS-Users] ...· 5 月前 · |
高兴的花卷 · [OpenWrt Wiki] JBoot ...· 5 月前 · |
开心的遥控器 · eclipse错误 找不到或无法加载主类 ...· 9 月前 · |
网络模型 相关性分析 学习策略 强化学习 |
https://www.infocomm-journal.com/znkx/article/2023/2096-6652/2096-6652-2023-5-3-313.shtml |
宽容的自行车
3 月前 |
XIANG Fengtao , , LUO Junren , GU Xueqiang , SU Jiongming , ZHANG Wanpeng
本文引用格式
项凤涛, 罗俊仁, 谷学强, 苏炯铭, 张万鹏.多智能体系统(multi-agent system,MAS)是指在同一环境中由多个交互智能体组成的系统,常用来解决独立智能体或单层系统难以解决的问题,其中的智能可通过知识推理、交互学习等方式获得。多智能体深度强化学习方法结合了深度学习、强化学习与多智能体系统理论等技术,赋予智能体更强的感知、推理、决策和学习能力,并在许多应用场景中展现出强大的潜力。目前,国内外相关领域学者从不同视角对多智能体强化学习的相关研究进行了综述分析。Yang等人 [ 1 ] 借助博弈理论相关知识,研究了基于博弈(特别是元博弈)理论的多智能体学习方法;Silva等人 [ 2 ] 从策略迁移的角度对多智能体自身内部和多智能体间的策略迁移问题进行了综述分析;Yang等人 [ 3 ] 从认知和偶然不确定性,内生新颖性和影响性等方面分析了多智能体策略探索问题;王涵等人 [ 4 ] 从值函数、直接策略搜索、通信效率提升和应急通信4个方面梳理总结了基于通信的多智能体强化学习方法;殷昌盛等人 [ 5 ] 从分层学习的角度对Option、HAM、Max-Q等多智能体强化学习方法进行了梳理分析;王龙等人 [ 6 ] 利用跨学科交叉视角综合分析了面向4种博弈形式的多智能体学习方法;罗俊仁等人 [ 7 ] 从多智能体博弈模型出发,区分离线与在线两阶段,梳理多智能体博弈学习方法。此外,国内邓小铁课题组为多人一般和随机博弈引入近似马尔可夫完美纳什均衡解概念,证明了该解的计算复杂度为PPAD-Complete [ 8 ] ,谢广明课题组研究了基于强化学习的多智能体系统控制问题 [ 9 ] 。
近年来,随着大数据、大算力、大模型等概念的提出,大规模系统(车辆、电力、无人机集群等)已然成为当前学习类方法的主要研究对象。一些研究从多智能体概念出发提出了许多(many)智能体 [ 10 ] 、大规模(large scale)智能体 [ 11 ] 、大量地(massively)多智能体 [ 12 ] 、可扩展(scaling、scalable)多智能体 [ 13 - 14 ] 等概念。借助各类计算机博弈及视频游戏平台、数字孪生系统、兵棋推演及模拟仿真软件,研究适用于一群智能体的规模可扩展性强化学习方法,应对多类场景的种群自适应强化学习方法仍然充满挑战。
本文的整体脉络结构如 图1 所示。首先围绕多智能体强化学习及其面临的挑战,概述了多智能体强化学习基础和面临的挑战,简要介绍了多智能体强化学习范式、分布式、协同对抗等前沿研究重点;其次从“群”视角出发,区分规模可扩展与种群自适应,分类归纳多种学习方法,其中将规模可扩展多智能体强化学习方法分为集合置换不变性、注意力机制、图与网络理论、平均场理论四大类,将面向种群的自适应强化学习方法分为迁移学习、课程学习、元学习、元博弈四大类;最后总结了全文,展望了多智能体深度强化学习方法的应用前景,讨论了未来发展方向。
多智能体强化学习通常可直接采用马尔可夫博弈(Markov game)模型来建模,如
图2
所示,可表示成八元组
该类问题的研究不考虑或者很少考虑智能体之间是如何进行交流的。相较于学习交流需要智能体之间出现显式的通信信道,此类工作更加注重与多智能体系统自身的协调与协作。通过结合博弈论的相关工作,这部分内容更加关注于多智能体系统本身的数学模型。每一个时间步,合作智能的大部分都是一样的收益。早期的多智能体协作方法大多考虑集中式评估集中执行的思路,但完全集中的学习导致了适应大规模环境的模型过于复杂。Lowe等人 [ 17 ] 提出了基于DDPG的扩展算法MADDPG,该算法提出了极大降低学习成本的集中训练-分散执行的学习方式。这种集中训练-分散执行的框架也成为范式,大部分的方法都是建立在协作的基础上的。Palmer等人 [ 18 ] 提出使用“宽容”的想法,设计基于加权的双Q网路来降低过预估,以应对多智能体之间策略的非平稳问题。此外,一些研究关注合作环境中多智能体的信用分配问题,即如何评估每个智能体的动作对当前回报的贡献。基于此,Foerster等人 [ 19 ] 提出了反事实基线(counterfactual multi-agent policy gradients,COMA),评估每个智能体的动作对当前奖励的贡献度,通过优势函数加速算法收敛。Sunehag等人 [ 20 ] 着眼于通过分解值函数来简化中心化的评价网络,从而提出了值分解网络(value-decomposition networks,VDN),将全局的值函数分解为多个智能体本地值函数的累加,使中心的评价网络进一步简化。随后,Rashid等人 [ 21 ] 证明了QMIX网络是基于此而提出的,只要全局值函数关于本地值函数的映射是单调递增的。本地值函数耦合的权重值是用神经网络求得的,全局值函数是用本地值函数加权求得的,VDN可以作为一个特殊情况,用于QMIX。随着注意力的成熟,一些研究提出利用注意力来计算全局信息,同时利用注意力参与值函数的信息融合。基于合作的方法的最大挑战是智能体数量的难扩展性,一旦环境中智能体数量改变,算法通常无法适用。
该类问题的研究是为了帮助智能体之间达成合作交流或竞争的目的,在自主学习的基础上,增加可交流模块,学习何时交流、如何交流等。此部分工作通常考虑部分可观环境中的一组协作智能体,其中智能体需要通过信息交互来最大化它们的联合回报。Foerster等人 [ 22 ] 提出了RIAL和DIAL算法,两种方法都是利用神经网络拟合值函数以及智能体之间的交流信息,同时也在多智能体强化学习中引入了参数共享的概念,简化了多智能体强化学习的模型复杂度。文献[ 23 ]提出了一种名为CommNet的网络结构,通过求和运算将智能体之间的沟通信息聚合起来,这种方法与图网络中的聚合思路类似,能够对环境中动态变化的智能体数量进行有效的处理。Peng等人 [ 24 ] 提出了一种思想类似于双向循环神经网络的多智能实体强化学习方法BiCNet,让每个智能实体在处理动态数量环境的同时,拥有全局观察的能力。此外,一些研究使用注意力机制的通信结构,能够在智能体间智能地选择通信关系,并对通信信息进行计算。
该类问题的研究主要聚焦于对对手的策略建模,其关注点在于对多智能体系统中的其他智能体的策略进行预测。通过这种显式的策略评估和建模,让智能体之间更协调地合作是这部分工作的最终目的。在该研究方向中,智能体对其他智能体的策略进行建模,并对其他智能体的行为进行推断 [ 25 ] 。深度强化对手网络(deep reinforce opponent network,DRON) [ 25 ] 是最早提出利用深度神经网络建模智能体的研究工作;MADDPG算法 [ 17 ] 基于多智能体Actor-Critic框架,利用集中式critic网络对自身行为进行评估,结合其他智能体的信息来帮助自己的actor网络学习策略。对手学习意识的学习(learning with opponent-learning awareness,LOLA) [ 26 ] 则通过引入新的学习规则预测对手策略参数的更新,更好地对应预测行为。对手建模技术的引入解决了对抗环境下对手策略参数未知的问题,通过对对手状态-行动轨迹的观察,采用最大似然估计值来求得对手策略参数的估计值,但对于风格复杂多变的对手往往会难以应付。Rabinowitz等人 [ 27 ] 提出了心智理论神经网络(theory of mind network,ToMnet),使机器能够学习他人的心理状态,通过观察智慧体的行为,利用元学习法对其进行建模,从而获得一个具有强大的智慧体行为先验知识的模型。该模型可以更丰富地预测智能体特征和心理状态,使用少量的行为观测。Li等人 [ 28 ] 从鲁棒强化学习中引入极大极小思想,对MADDPG算法进行了扩展,提出了极大极小多智能体深度确定策略梯度(minimax multi-agent deep deterministic policy gradient,M3DDPG)算法,假设环境中的其他智能体都会对自身产生负面影响,利用“最坏噪声”提升智能体的鲁棒性。
传统的多智能体强化学习方法对于拥有少量智能体的应用场景效果比较明显,但对于智能体数据规模过大场景,指数爆炸导致学习时的样本效率过低。如 图4 所示,MAgent对抗场景中,智能体的数据规模比较大,为了应对大规模智能体,设计规模可扩展的多智能体强化学习方法已然成为当前研究的焦点。
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 | 深度集合 [ 35 ] | 利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值 [ 36 ] | 在深度强化学习中引入深度集合网络架构 | ||
深度集群 [ 37 - 38 ] | 多无人机交互采用深度集合架构编码 | ||
深度集合平均场 [ 39 ] | 基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 | 注意力关系型编码器 [ 40 ] | 可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解 [ 41 ] | 采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合 [ 42 ] | 采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer [ 43 ] | 利用Transformer来学习分组实体的策略 | ||
种群不变Transformer [ 44 ] | 设计具备种群数量规模不变的Transformer | ||
图与网络理论 | 可分解马尔可夫决策 [ 32 ] | 动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策 [ 45 ] | 利用图表示部分可观的局部交互 | ||
可分解分散式决策 [ 46 ] | 利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络 [ 47 ] | 直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络 [ 48 ] | 利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络 [ 49 ] | 利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络 [ 50 ] | 设计小组与个人之间的注意力神经网络 | ||
深度循环图网络 [ 51 ] | 结合门控循环单元和图注意力网络模型 | ||
深度协调图 [ 52 ] | 设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合 [ 53 ] | 基于超图卷积的值分解 | ||
协作图贝叶斯博弈 [ 54 ] | 构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 | 平均场多智能体强化学习 [ 55 ] | 基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈 [ 56 - 57 ] | 基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制 [ 58 ] | 将多智能体强化学习转换成高维单智能体决策 |
一种常见的方法是假设问题的图是可分解结构的,考虑状态变换函数、观测与奖励函数可能具有的独立性特点,将联合函数分解成小因子形式,如 图5 所示。可分解马尔可夫决策(factored MDPs)模型 [ 32 ] 是一类基于图分解来实现可扩展性的框架之一。将状态转换模型分解成如 图5 所示的动态贝叶斯网络(dynamic Bayesian network,DBN)。联网分布式决策(networked distributed POMDPs,ND-POMDPs)模型 [ 45 ] 是一类融合了部分可观与协调图的统一框架。可分解分散式决策(factored dec-POMDPs)模型 [ 46 ] 可用于表示基于图的多智能体系统,与可分解马尔可夫决策模型类似,可用动态贝叶斯网络表示状态变换函数和观测模型。
复杂网络的相关研究包括小世界网络、渗流原理、动力学模型等。复杂网络理论长期以来专注于利用图理论来理解复杂的大规模系统。近年来,一个重要的新兴领域是研究处理网络节点间的高阶相互作用,已然超越了简单的成对相互作用。深度协调图 [ 52 ] 使用基于超图的图神经网络来学习智能体之间的交互,由于超图可以表征智能体之间的高阶交互。超图卷积混合网络 [ 53 ] 采用基于超图卷积的值分解方法。此外,一些研究将重点从图上动态系统转移至动态自适应图系统,同时考虑智能体的变化与智能体交互之间的变化。为了更加真实并适用于现实场景,多智能体系统不仅需要适应不断变化的环境,还需要适应系统中不断变化的交互、操作和连接。协作图贝叶斯博弈(collaborative graphical Bayesian games,CGBG)模型 [ 54 ] 试图构建满足智能体之间交互的非平稳交互图,智能体在每一步均可更新交互。高阶和自适应网络是表示实际多智能体问题的一种自然而现实的方法。
Yang等人 [ 55 ] 提出了基于平均场理论的多智能体强化学习方法。智能体的Q函数可以通过成对的局部交互分解,如 图6 所示。每个智能体被表示成格网中的一个节点,接受其邻域智能体的平均作用,多智能体之间的交互转化成两个智能体之间的交互。
利用平均场理论的思想,多智能体问题被简化为无限智能体极限。直观地说,所有智能体之间的相互作用,在平均的博弈中,都被简化为所有智能体的质量、两个机体之间的相互作用,以及任何具有代表性的单个智能体行为。最重要的是,这种简化将一般复杂的多智能体问题简化为竞争场景下的不动点方程或合作场景下的高维单智能体问题。面向平均场博弈的可扩展深度强化学习方法 [ 56 ] 利用虚拟自对弈与扩展式在线镜像梯度下降来学习平均场博弈均衡。智能体只需与其他智能体的一个子集进行交互,子集可以通过图上邻居来表示。图元(graphon)作为大型图的极限 [ 57 ] ,常被用来描述图上的平均场博弈,可用于表述连续或离散时间下的静态或动态智能体之间的交互。如 图7 所示,图元作为邻接矩阵的连续域版本,提供了一种易于处理的建模大型图极限的方法。
与竞争式平均场博弈相比,平均场控制的完全合作框架描述了另一类重要的问题,近年来,协作式平均场控制方法得到了广泛发展。基于Q学习的方法 [ 58 ] 可有效地学习可扩展的控制策略。平均场博弈与平均场控制的关系如 图8 所示。
对于大规模多智能体系统而言,其数量规模是动态变化的,如何为深度网络的状态输入设计满足动态变化(变长或变维)的状态表示是关键所在,也是当前深度强化学习方法面临的重要挑战。可扩展学习主要是降低各种学习方法对输入因素的敏感度,集合具备置换不变性(permutation invariance)的特点,与集合理论中集合元素置换不变性不同的是,基于注意力机制的方法更加强调智能体角色、重要性的不同。为了利用多智能体强化学习的组合特性并获得高效和可扩展的算法,可以使用图来表示智能体之间的稀疏交互。平均场理论是利用平均嵌入的思想计算多个智能体的状态表示平均值,将变规模智能体的状态编码转换成固定维数张量。未来围绕可扩展学习方法的相关研究可考虑从突破平均场理论极限、建模高阶复杂网络交互、设计满足等变性质的神经网络等角度展开。
DeepMind发布了关于真实世界博弈策略的陀螺猜想 [ 33 ] ,实证分析了多类博弈的策略空间满足此猜想,陀螺型博弈策略空间形态如 图9 所示。策略之间的传递压制与循环压制并存,正如现实情景中如何玩好“石头、剪刀、布”一直是个挑战问题,如何分析各类博弈的策略空间形态一直是一个开放式问题。
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 | 离线预训练 [ 59 ] | 利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应 [ 60 ] | 将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移 [ 61 ] | 智能体之间采用 | ||
课程学习 | 任务难易程度课程 [ 62 ] | 将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习 [ 63 ] | 利用环境与智能体进行协同学习 | ||
元学习 | 度量元学习 [ 64 ] | 基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器 [ 65 ] | 基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习 [ 66 ] | 从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO [ 68 ] | 利用并行化的博弈策略学习方法 | ||
单纯形PSRO [ 69 ] | 利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO [ 70 ] | 基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO [ 71 ] | 利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO [ 72 ] | 考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO [ 73 ] | 基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO [ 74 ] | 基于自对弈学习的迭代式博弈策略学习方法 |
作为一类试图充分利用离线交互数据的学习范式,离线预训练通过大量智能体和环境的交互样本,利用原来通过强化学习收集的交互模型,将强化学习过程重构为监督学习过程。如 图10 所示,适用于离线预训练的因果Transformer解码器将环境观测、未来奖励、当前行动与当前奖励作为输入 [ 59 ] 。
智能体规模数量的不同,会对学习模型的泛化性能产生影响。传统基于参数共享式的学习方法无法很好地扩展到更多智能体的场景。可以设计围绕数量的分解子课程、动态数量课程、种群进化课程等。从小规模智能体交互场景的策略学习开始,逐步增加智能体的数量规模。如 图11 所示,设计不同数量智能体课程 [ 47 ] 。
自主课程学习方法将智能体与任务环境进行耦合,迭代优化智能体与环境之间的双向适应性能力。给定智能体行为(如性能或访问状态)的度量,自主课程学习方法生成适应智能体能力的新任务。如 图12 所示,自主课程学习可以控制任务的各个元素,塑造智能体的学习轨迹 [ 63 ] 。
度量元学习方法是深度度量(相似性)学习与元学习的结合,其中基于度量的方法可以体现为网络模型中带有注意力机制的网络层,而注意力机制中的距离度量可以依赖深度度量学习训练得到。如
图13
所示,推理网络使用情景数据来计算隐式场景变量
统计学中,相对于统计学派认为参数是固定的,贝叶斯学派经验使用先验与后验来分析数据,过去经验对应先验分布,根据实际收集的数据和后验分布,分析计算参数的估计值。由于模型固有的不确定性,学习从多个模型中推断贝叶斯后验是迈向稳健元学习的重要一步。贝叶斯推理比较万能,在策略推理中可以运用。如
图14
所示,模型无关元学习(model-agnostic meta-learning)方法优化的策略
自适应学习的任务是根据环境的变化将全局奖励自适应地分配给单个智能体,使得智能体能够据此选择对全局有利的动作,进而提高算法模型的训练效率及性能。迁移学习框架下的智能体自适应策略学习主要分为对源任务的学习或预训练和目标任务的适配两个方面。基于课程学习的方法是模仿人类先易后难、先简单后复杂的顺序式、渐进性的学习方法,该方法的思路是从简单的样本或任务开始,而后逐步过渡至复杂样本或任务。基于元学习的方法可以实现模型的快速准确迁移,降低模型训练的成本,让模型快速适应新任务,特别适合用于小样本和环境不断变化任务场景的策略学习;基于元博弈的策略空间形态理论为基于种群的学习方法设计提供了理论支撑,作为一种迭代式实证博弈理论分析方法,策略空间响应预言机为基于博弈理论的多智能体强化学习提供了统一框架,成为当前主要的学习方法设计范式。未来围绕自适应学习方法的相关研究可考虑从元演化、协同演化、自主课程学习、非对称元博弈学习等角度展开。
随着5G通信、云原生和边缘计算、物联网和大数据等新兴技术的更新换代,无人驾驶汽车、无人仓储物流、无人(车、机、艇、船)集群系统等应用日益成熟。无人平台正在逐步取代人类在军事和民用领域从事的枯燥和危险的任务。随着跨学科融合的日益加深,深度融合了电子、通信、人工智能、机械制造等多学科关键技术的无人系统日益多见,并愈发受到关注。无人潜航器、无人水面艇、无人地面车、无人飞行器等以无人技术为主导的新型智能化无人系统正改变着未来社会形态。在民用领域,无人机集群可以应用于农业植保、智能交通、抢险救灾、资源监测等场景;在军用领域,无人机集群可用于执行通信中继、协同察打、干扰压制、巡逻搜救等任务。规模可扩展多智能体强化学习方法可用于解决这类自主无人平台的控制问题。
决策科学领域的核心问题是资源分配。在资源分配问题中,需要将资源分配给若干目标(对象),并考虑相应的限制条件和需要优化的目标,构建资源分配模型,根据需要分配的资源与目标对象之间的种类和数量得出资源分配方案。在电力分配、网络资源分配、安全设备布设、军事兵力分配、军事物流资源分配、卫星在轨资源分析、云计算、政治选举、频谱资源拍卖、安全巡逻、偷猎走私、兵力分配、战略博弈等领域,很多问题可以被建模成资源分配问题。博弈论与运筹学作为决策科学的两个分支,为资源分配问题提供了建模工具与求解方法。从博弈论视角来看,资源分配可用于多种场景、多类问题的建模。根据博弈局中人之间的合作、对抗、混合关系,可将问题分为合作条件下资源分配问题、对抗条件下资源分配问题以及混合式条件下资源分配问题,其中对抗条件下资源分配问题是本文的研究核心。根据博弈局中人之间的决策顺序可将博弈建模成Stackelberg博弈、正则式博弈、多阶段博弈和马尔可夫博弈。从运筹学的视角来看,面向资源分配的博弈问题可以转化成多重线性规划或凸优化问题,可以利用优化理论和方法来求解,特别是在线资源分配问题。基于种群的自适应强化学习方法可用于优化各类资源分配问题。
近年来随着深度强化学习不断取得突破性进展,大量与之相关的算法和应用走入视野,很多研究不再局限于单智能体强化学习,研究多智能体学习场景下的深度强化学习逐渐成为热点,强化学习中单个智能体与环境交互学习扩展至多智能体在复杂环境中合作竞争与共同进化,在对不同智能体学习策略奖励不同的情况下,不断改进学习算法。目前该方向已经取得了一系列瞩目的进展,比如交通信号控制、机器人控制、未知探索、公交车时刻表优化等,该领域的研究与应用也越来越多,其在通信网络、合作探索等方面都进行了深入的研究。当前部分基准测试环境无法提供可向现实场景迁移的策略,未来可考虑通过构建分布式群智能体学习问题的测试基准平台和算法基准平台解决上述问题。
依靠分布式训练框架IMPALA,DeepMind在开发星际争霸AlphaStar时,采用了集中式训练分布式执行的范式设计了三大类智能体对象:主智能体(main agent)为正在训练的智能体及历史数据,采用优先级虚拟自对弈的方式来选取;联盟利用者(league exploiter)能打败联盟中的所有智能体,按照有优先级虚拟自对弈的方式与全联盟的对手进行训练;主利用者(main exploiter)能够打败所有的智能体. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
分布式群智能体强化学习包含两个“群”概念,即一群智能体和策略种群.需要研究的问题包括两方面:规模可扩展多智能体强化学习方法,主要关注如何训练一群智能体;自适应深度强化学习,采用基于种群的训练方法,训练一个智能体种群.种群自适应学习方法主要聚焦于如何通过自适应学习方法得到策略种群,这是这类方法的本质.当前主流建模框架与典型方法如
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
自主课程学习方法将智能体与任务环境进行耦合,迭代优化智能体与环境之间的双向适应性能力.给定智能体行为(如性能或访问状态)的度量,自主课程学习方法生成适应智能体能力的新任务.如
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
利用平均场理论的思想,多智能体问题被简化为无限智能体极限.直观地说,所有智能体之间的相互作用,在平均的博弈中,都被简化为所有智能体的质量、两个机体之间的相互作用,以及任何具有代表性的单个智能体行为.最重要的是,这种简化将一般复杂的多智能体问题简化为竞争场景下的不动点方程或合作场景下的高维单智能体问题.面向平均场博弈的可扩展深度强化学习方法
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
集合置换不变性 |
深度集合
[
|
利用置换不变性设计满足集合数据处理的网络 | 忽略了智能体之间的差异,无法满足异构智能体 |
深度集合Q值
[
|
在深度强化学习中引入深度集合网络架构 | ||
深度集群
[
|
多无人机交互采用深度集合架构编码 | ||
深度集合平均场
[
|
基于深度集合架构与平均场理论设计PPO算法 | ||
注意力机制 |
注意力关系型编码器
[
|
可以聚合任意数量邻近智能体的特征表示 | 忽略了智能体之间的信息交互,无法保证有效区分各智能体的重要性 |
随机实体分解
[
|
采用随机分解来处理不同类型和数量的智能体 | ||
基于注意力的深度集合
[
|
采用基于注意力的深度集合框架来控制集群 | ||
通用策略分解Transformer
[
|
利用Transformer来学习分组实体的策略 | ||
种群不变Transformer
[
|
设计具备种群数量规模不变的Transformer | ||
图与网络理论 |
可分解马尔可夫决策
[
|
动态贝叶斯网络分解状态变换函数 | 需要建模复杂的交互关系,很难处理超大规模智能体策略空间的指数增长 |
联网分布式决策
[
|
利用图表示部分可观的局部交互 | ||
可分解分散式决策
[
|
利用协调图将状态变换函数分解成动态贝叶斯网络 | ||
图卷积网络
[
|
直接利用图卷积网络学习大规模无人机编队控制 | ||
基于聚合的图神经网络
[
|
利用聚合操作来处理变长维度的输入 | ||
图Q值混合网络
[
|
利用图神经网络与注意力机制学习值函数分解 | ||
图注意神经网络
[
|
设计小组与个人之间的注意力神经网络 | ||
深度循环图网络
[
|
结合门控循环单元和图注意力网络模型 | ||
深度协调图
[
|
设计基于超图表征智能体关系的图卷积神经网络 | ||
超图卷积混合
[
|
基于超图卷积的值分解 | ||
协作图贝叶斯博弈
[
|
构建满足智能体之间交互的非平稳交互图 | ||
平均场理论 |
平均场多智能体强化学习
[
|
基于平均嵌入设计满足多智能体的平均场Q学习 | 忽略了数量规模信息和智能体重要程度 |
平均场博弈
[
|
基于智能体与邻居的交互图构建局部平均场博弈 | ||
平均场控制
[
|
将多智能体强化学习转换成高维单智能体决策 |
可扩展性本质是要求降低方法对输入的敏感度,与等变性(equivariant)不同,集合具备置换不变性(permutation invariance)的特性.Zaheer等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
当前,围绕预训练模型的相关研究主要聚焦在设计更好的预训练范式、提升模型的可扩展性、在线微调与提升等方面. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
元学习也称学会学习,可以实现模型的快速准确迁移,降低模型训练的成本,让模型快速适应新任务,特别适合用于小样本和环境不断变化的任务场景的策略学习.现在的元学习法主要有三大类:度量元学习、基础与元学习器、贝叶斯元学习. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
这类方法通常将元学习建造成一个双层学习模型,基础学习器可以快速得到基础策略,上层学习器可以慢速收敛.基础学习器主要用于学习任务特性,元学习器主要学习任务共性.Shao等人
[
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
类别 | 建模框架与典型方法 | 主要机制及方法特点 | 缺点分析 |
---|---|---|---|
迁移学习 |
离线预训练
[
|
利用线下大样本,重构强化学习范式,进行预训模式的学习 | 预训练学习策略需要在线微调,难处理分布外场景 |
任务及域适应
[
|
将源任务中学习到的知识,用于适配目标任务 | ||
智能体间迁移
[
|
智能体之间采用 | ||
课程学习 |
任务难易程度课程
[
|
将不同的任务场景分解成不同难度的子任务 | 课程难设计,自主课程中环境-策略协同演化难收敛 |
智能体规模课程 | 设定不同规模数量的智能体学习场景 | ||
自主课程学习
[
|
利用环境与智能体进行协同学习 | ||
元学习 |
度量元学习
[
|
基于深度度量(相似性)学习 | 训练过程不稳定,难以适应新的任务 |
基础与元学习器
[
|
基础学习器学习底层策略,元学习器学习上层共性策略 | ||
贝叶斯元学习
[
|
从多个模型中推断贝叶斯后验 | ||
元博弈学习 |
|
基于策略评估的博弈策略学习方法 | 大规模博弈策略学习样本效率较低,分布式并行框架难适配,学习到的策略模型难以应对高动态测试时规划 |
管线PSRO
[
|
利用并行化的博弈策略学习方法 | ||
单纯形PSRO
[
|
利用单纯形构建基于贝叶斯最优的策略学习方法 | ||
自主PSRO
[
|
基于课程学习方法设计自主博弈策略学习方法 | ||
离线PSRO
[
|
利用离线资料学习环境模型和预先训练策略模型 | ||
在线PSRO
[
|
考虑对手类型的在线无悔的博弈策略学习方法 | ||
随时PSRO
[
|
基于种群后悔最小化的迭代式博弈策略学习方法 | ||
自对弈PSRO
[
|
基于自对弈学习的迭代式博弈策略学习方法 |
迁移学习视角下的智能体策略学习一般可分为两阶段:源任务中学习或预训练、目标任务中适配. ...
含蓄的眼镜 · 系统运行 | 千丝物芯文档 3 月前 |