摘要:深度强化学习有望彻底改变人工智能领域,并代表着朝着构建对视觉世界有更高层次理解的自主系统迈出了一步。目前,深度学习使强化学习能够扩展到以前难以解决的问题,例如直接从像素学习玩视频游戏。深度强化学习算法也应用于机器人技术,允许直接从现实世界中的相机输入中学习机器人的控制策略。在本次调查中,我们首先介绍了强化学习的一般领域,然后介绍了主流得基于价值和基于策略的方法。我们的调查将涵盖深度强化学习中的核心算法,包括Q-network(DQN),
trust region policy optimisation(TRPO), and asynchronous advantage
actor-critic(A3C) 。同时,我们强调了深度神经网络的独特优势,专注于通过强化学习进行视觉理解。最后,我们描述了该领域的几个当前主要研究领域。
人工智能 (AI) 领域的主要目标之一是产生完全自主的agent,它们与环境交互以学习最佳行为,并通过反复试验随着时间的推移而改进。构建响应迅速且可以有效学习的人工智能系统一直是一项长期挑战,从可以感知周围世界并对其做出反应的机器人,到可以与自然语言和多媒体交互的纯软件agent。经验驱动的自主学习的原则性数学框架是强化学习(RL)。尽管 RL在过去取得了一些成功 ,但以前的方法缺乏可扩展性,并且本质上仅限于相当低维的问题。存在这些限制是因为RL 算法与其他算法具有相同的复杂性问题:内存复杂性、计算复杂性,以及在机器学习算法的情况下,样本复杂性 。近年来我们所见证的——
深度学习的兴起,依靠深度神经网络强大的
函数逼近
和
表征学习
特性——为我们提供了克服这些问题的新工具
。
深度学习的出现对机器学习的许多领域产生了重大影响,极大地提高了目标检测、语音识别和语言翻译等任务的最新技术。深度学习最重要的特性是深度神经网络可以自动找到高维数据(例如图像、文本和音频)的紧凑低维表示(特征)。通过将归纳偏差使用到神经网络架构中,特别是分层表示的架构,机器学习从业者在解决维度灾难方面取得了有效进展 。深度学习同样加速了 RL 的进展,在 RL 中使用深度学习算法定义了“深度强化学习”(DRL)领域。本次调查的目的旨在涵盖 DRL 的开创性和最新发展,传达神经网络可用于使我们更接近开发自主agent的创新方式。为了更全面地了解 DRL 最近的努力,包括 DRL 在自然语言处理等领域的应用 。
深度学习使 RL 能够扩展到以前难以解决的决策问题,即具有高维状态和动作空间的设置。在 DRL 领域的近期工作中,有两个杰出的成功案例。第一个是 DRL 革命的开始,它是一种算法的开发,可以直接从图像像素学习以超人的水平玩一系列 Atari 2600 视频游戏[1]。为 RL 中函数逼近技术的不稳定性提供解决方案,这项工作是第一个令人信服地证明 RL 智能体可以仅基于奖励信号的原始高维观察进行训练。第二个突出的成功是开发了混合 DRL 系统 AlphaGo[2],它击败了围棋世界冠军 ,与 20 年前 IBM 的 Deep Blue 在国际象棋和 IBM 的 Watson DeepQA 系统的历史性成就相提并论。与主导国际象棋系统的手工规则不同,AlphaGo 由神经网络组成,这些神经网络使用监督和强化学习以及传统的启发式搜索算法进行训练。
DRL 算法已经应用于广泛的问题,例如机器人技术,其中机器人的控制策略现在可以直接从现实世界中的相机输入中学习 [3] [4],胜过过去手动设计或学习的控制器机器人状态的低维特征。在迈向更强大的agent的一步中,DRL 已被用于创建可以元学习(“学会学习”)的agent [5],使它们能够泛化到他们以前从未见过的复杂视觉环境。在图 1 中,我们仅展示了 DRL 已应用于的一些领域,从玩视频游戏到室内导航 [6]。
视频游戏可能是一个有趣的挑战,但学习如何玩它们并不是 DRL 的最终目标。DRL 背后的驱动力之一是创建能够学习如何适应现实世界的系统的愿景。从管理功耗[7]到拾取和存放物体 [4],DRL 将增加可以通过学习实现自动化的真实任务的数量。然而,DRL 并不止于此,因为 RL 是通过反复试验来解决优化问题的一般方法。从设计最先进的机器翻译模型 [8]到构建新的优化函数 [9],DRL 已被用于处理各种机器学习任务。而且,就像深度学习已在机器学习的许多分支中使用一样,在未来,DRL 似乎很可能成为构建通用 AI 系统的重要组成部分[14]
图 1:一系列视觉 RL 域。 (a) 来自 Arcade Learning Environment (ALE) [10] 的两个经典 Atari 2600 视频游戏“Freeway”和“Seaquest”。 (b) TORCS 赛车模拟器,已用于测试可以输出连续动作的 DRL 算法。 © 利用机器人模拟器中可以积累的潜在无限量的训练数据,几种方法旨在将知识从模拟器转移到现实世界 [10][11][12] (d) Levine 等人设计的四个机器人任务中的两个。[3]:拧上瓶盖并将成型块放入正确的孔中。能够以端到端的方式训练视觉运动策略,表明可以通过使用深度神经网络直接从原始相机输入中学习视觉伺服。 (e) 一个真实的房间,其中一个被训练来导航建筑物的轮式机器人被给予视觉提示作为输入,并且必须找到相应的位置 [6]。 (f) 由神经网络描述的自然图像,该网络使用强化学习来选择看哪里[13]通过为生成的每个单词处理一小部分图像,网络可以将注意力集中在最显着的点上。
最后,我们将重点介绍 DRL 的一些当前研究领域,以及仍然存在的挑战。以前,我们主要关注model-free 方法,但现在我们将更详细地研究一些基于模型的 DRL 算法。model-based的 RL 算法在提高 RL 数据效率以及权衡探索和利用方面发挥着重要作用。在解决了探索策略之后,我们将讨论 HRL,它通过将最终策略明确分解为几个级别来对最终策略施加归纳偏差。如果可用,来自其他控制器的轨迹可用于引导学习过程,引导我们进行模仿学习和逆强化学习 (IRL)。对于特定于 RL 的最后一个主题,我们将研究多智能体系统,它们有自己的特殊考虑。然后,我们在 DRL 的背景下关注两个更广泛的领域——RNN 的使用和迁移学习。然后,我们检查评估 RL 的问题,以及 DRL 的当前基准。
A:Model-based RL
基于模型的 RL 背后的关键思想是学习一个过渡模型,该模型允许在不直接与环境交互的情况下模拟环境。基于模型的 RL 不假设特定的先验知识。然而,在实践中,我们可以结合先验知识(例如,基于世界的模型来加速学习。模型学习在减少与(真实)环境所需的交互量方面发挥着重要作用,这在实践中可能会受到限制。例如,在合理的时间内用机器人进行数百万次实验并且没有明显的硬件磨损是不现实的。有多种方法可以使用像素信息来学习动态系统的预测模型,基于深度动态模型,其中使用自动编码器将高维观察嵌入到低维空间中,已经提出了几种基于模型的 DRL 算法,用于从像素信息中学习模型和策略 .如果可以学习到足够准确的环境模型,那么即使是简单的控制器也可以直接从相机图像中控制机器人。学习模型也可用于纯粹基于环境模拟来指导探索,深度模型允许将这些技术扩展到高维视觉域。
关于基于神经网络的模型的好处的一个令人信服的见解是,它们可以克服使用不完美模型进行规划所带来的一些问题。实际上,通过将这些模型的激活和预测(输出)嵌入到一个向量中,DRL 代理不仅可以获得比任何模型推出的最终结果更多的信息但是如果它认为模型不准确,它也可以学会淡化这些信息。与传播不确定性的贝叶斯方法相比,这可能更有效,但原则性较差。利用基于神经网络的模型的灵活性的另一种方法是让它们决定何时进行规划,也就是说,给定有限的计算量,是否值得对一条长轨迹、几条短轨迹或任何之间,或者只是在真实环境中采取行动。
尽管深度神经网络可以在数百个时间步长的模拟环境中做出合理的预测 ,但它们通常需要许多样本来调整它们包含的大量参数。训练这些模型通常需要比简单模型更多的样本(与环境的交互)。为此,顾等人 训练局部线性模型以与 NAF 算法(DQN [84] 的连续等效项)一起使用,以提高该算法在样本昂贵的机器人领域中的样本复杂性。为了促进在基于模型的 DRL 中采用深度模型,有必要找到可以用来提高数据效率的策略。在无模型和基于模型的方法之间存在一种不太常见但可能有用的范例——后继表示(SR)。学习 T 不是直接选择动作或使用模型执行规划,而是学习预期(折扣)未来占用率(SRs)代替,后者可以与 R 线性组合以计算最佳动作;当奖励结构发生变化时,这种分解使得 SR 比无模型方法更稳健(但在 T 变化时仍然容易出错)。将 SR 扩展到深度神经网络的工作已经证明了它在多任务设置中的有用性,同时在复杂的视觉环境中 。
B:Exploration vs. Exploitation
C:Hierarchical RL
与深度学习依赖于特征层次结构一样,HRL 依赖于策略层次结构。该领域的早期工作引入了选项,其中除了原始操作(单时间步操作)外,策略还可以运行其他策略(多时间步“操作”)。这种方法允许顶级策略专注于更高级别的目标,而子策略则负责精细控制。 DRL 中的几项工作通过使用一种在子策略之间进行选择的顶级策略来尝试 HRL,其中将状态或目标划分为子策略是手动实现的或自动 。帮助构建子策略的一种方法是专注于发现和实现目标,即环境中的特定状态;它们通常可能是代理应该导航到的位置。无论是否与 HRL 一起使用,目标的发现和概括也是正在进行的研究的一个重要领域 。
D:Imitation Learning and Inverse RL
有人可能会问,为什么如果给定来自专家演示的一系列“最佳”动作,就不可能以直接的方式使用监督学习——这是“从演示中学习”的例子。这确实是可能的,并且在传统的 RL 文献中被称为行为克隆。利用监督学习问题中可用的更强信号,行为克隆在早期的神经网络研究中取得了成功,其中最显着的成功是 ALVINN,它是最早的自动驾驶汽车之一 。但是,行为克隆无法适应新情况,并且在学习策略执行期间与演示的微小偏差可能会加剧并导致策略无法恢复的情况。更通用的解决方案是使用提供的轨迹来指导学习合适的状态-动作对,但使用 RL微调代理。或者,如果专家在训练期间仍然可以查询,代理可以使用主动学习来收集额外的数据当不确定时,允许它从远离最佳轨迹的状态中学习 。这已被应用于深度学习设置,其中 CNN 在具有主动学习的视觉导航任务中进行了训练,在纯模仿学习基线上得到了显着改进 。
IRL 的目标是从表征所需解决方案的观察轨迹中估计未知的奖励函数 [[29]; IRL 可以与 RL 结合使用,以改进已展示的行为。利用深度神经网络的力量,现在可以为 IRL 学习复杂的非线性奖励函数。 Ho 和 Ermon 表明,策略的独特特征在于它们的占用率(访问状态和动作分布),这使得 IRL 可以简化为度量匹配问题。凭借这种洞察力,他们能够使用生成对抗训练以更灵活的方式促进奖励函数学习,从而产生生成对抗模仿学习 (GAIL) 算法。 GAIL 后来被扩展以允许应用 IRL,即使从与 RL 代理不同的视觉角度接收专家轨迹 在补充工作中,Baram 等人利用 GAIL 中未使用的梯度信息来学习 IRL 过程中的模型。
E:Multi-agent RL
通常,RL 会考虑静止环境中的单个学习代理。相比之下,多智能体 RL (MARL) 考虑通过 RL 学习多个智能体,并且通常由其他智能体引入的非平稳性在他们学习时会改变他们的行为。在 DRL 中,重点是在代理之间启用(可区分的)通信,这允许它们进行合作。为此目的,已经提出了几种方法,包括将消息顺序传递给代理 ,使用双向通道(提供具有较少信号损失的排序)和全通通道。添加通信渠道是在复杂场景中应用于 MARL 的一种自然策略,并且不排除在 MARL 文献 的其他地方应用的对合作或竞争代理进行建模的通常做法。 MARL 中其他值得注意的 DRL 作品研究了博弈论中学习和顺序决策的影响 。
F:Memory and Attention
G:Transfer Learning
尽管 DRL 算法可以处理高维输入,但由于需要大量样本,直接在现实世界中的视觉输入上训练 RL 代理很少可行。为了加速 DRL 中的学习,可以利用以前从相关任务中获得的知识,这些知识有几种形式:迁移学习、多任务学习 等等。人们对将学习从一项任务转移到另一项任务非常感兴趣,特别是通过使用视觉渲染器在物理模拟器中进行训练和在现实世界中微调模型。这可以以一种简单的方式来实现,在模拟和真实阶段直接使用相同的网络,或者使用更复杂的训练程序直接尝试通过添加额外的来缓解神经网络“灾难性地忘记”旧知识的问题传输域 时的层。其他方法包括直接学习模拟和真实视觉之间的对齐,甚至是两个不同的相机视点之间的对齐。
可以利用不同形式的迁移以多任务训练的形式帮助强化学习 。特别是对于神经网络,有监督和无监督的学习任务可以帮助训练 RL 代理可以使用的特征,从而更容易实现 RL 目标的优化。例如,“无监督强化和辅助学习”基于 A3C 的代理额外使用“像素控制”(maxi-改变像素输入),加上奖励预测和从经验重放中学习的价值函数。同时,Mirowski 等人的基于 A3C 的代理。 还接受了训练,可以在给定 RGB 输入的情况下构建深度图,这有助于它学习导航 3D 环境的任务。在消融研究中,Mirowski 等人。 表明预测深度比接收深度作为额外输入更有用,这进一步支持了辅助任务引起的梯度在提升 DRL 方面非常有效的观点。
迁移学习也可用于构建更多数据和参数有效的策略。在机器学习的学生-教师范式中,可以先训练一个更强大的“教师”模型,然后用它来指导一个不太强大的“学生”模型的训练。虽然最初应用于监督学习,但被称为蒸馏的神经网络知识转移技术已被用于将大型 DQN 学习到的策略转移到较小的 DQN,以及将在不同游戏中训练的多个 DQN 学习到的策略转移到单个 DQN 。总之,多任务和迁移学习的结合可以提高当前 DRL 算法的样本效率和鲁棒性。如果我们希望构建能够完成广泛任务的代理,这些都是重要的主题,因为一次天真地训练多个 RL 目标可能是不可行的。
H:Benchmarks
尽管 DRL 取得了成功,但在将这些技术应用于广泛的复杂现实世界问题之前,还需要解决许多问题 。最近使用(非深度)生成因果模型的工作在一些基准测试 中证明了优于标准 DRL 算法 的泛化能力,这是通过推理环境中的因果关系来实现的。例如,Kanksy 等人的模式网络在游戏“Breakout”上训练后立即适应了一个变体,其中在目标块前面放置了一堵小墙,而渐进式(A3C)网络 即使在训练后也无法匹配模式网络的性能新域。尽管 DRL 已经与搜索 和规划 等 AI 技术相结合,但与其他传统 AI 方法的更深入集成有望带来诸如更好的样本复杂性、泛化性和可解释性 等好处。随着时间的推移,我们也希望我们对神经网络(特别是在 DRL 中)特性的理论理解能够得到改善,因为它目前远远落后于实践。总而言之,值得重新审视所有这些研究的总体目标:创建可以与周围世界交互和学习的通用人工智能系统。与环境的交互同时是强化学习的优点和缺点。虽然在寻求了解我们复杂且不断变化的世界方面存在许多挑战,但 RL 允许我们选择探索它的方式。实际上,RL 赋予代理执行实验以更好地了解周围环境的能力,使他们能够学习甚至高级别的因果关系。高质量视觉渲染器和物理引擎的可用性现在使我们能够朝着这个方向迈出一步,其作品试图在视觉环境中学习直观的物理模型。在现实世界中实现这一目标之前仍然存在挑战,但通过观察和行动来学习世界基本原理的智能体正在取得稳步进展。那么,也许我们离在日益复杂的环境中以更像人类的方式学习和行动的人工智能系统并不太远。
[1] V olodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu,
Joel V eness, Marc G Bellemare, Alex Graves, Martin Riedmiller,
Andreas K Fidjeland, Georg Ostrovski, et al. Human-Level Control
through Deep Reinforcement Learning. Nature, 518(7540):529–533,
2015.
[2] David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Lau-
rent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis
Antonoglou, V eda Panneershelvam, Marc Lanctot, et al. Mastering
the Game of Go with Deep Neural Networks and Tree Search. Nature,
529(7587):484–489, 2016.
[3] Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel. End-
to-End Training of Deep Visuomotor Policies. JMLR, 17(39):1–40,
2016.
[4] Sergey Levine, Peter Pastor, Alex Krizhevsky, and Deirdre Quillen.
Learning Hand-Eye Coordination for Robotic Grasping with Deep
Learning and Large-Scale Data Collection. In ISER, 2016
[5] Yan Duan, John Schulman, Xi Chen, Peter L Bartlett, Ilya Sutskever,
and Pieter Abbeel. RL2: Fast Reinforcement Learning via Slow
Reinforcement Learning. In NIPS Workshop on Deep Reinforcement
Learning, 2016.
[6] Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph J Lim, Abhinav
Gupta, Li Fei-Fei, and Ali Farhadi. Target-Driven Visual Navigation
in Indoor Scenes using Deep Reinforcement Learning. In ICRA, 2017.
[7] Gerald Tesauro, Rajarshi Das, Hoi Chan, Jeffrey Kephart, David
Levine, Freeman Rawson, and Charles Lefurgy. Managing Power Con-
sumption and Performance of Computing Systems using Reinforcement
Learning. In NIPS, 2008.
[8] Barret Zoph and Quoc V Le. Neural Architecture Search with
Reinforcement Learning. In ICLR, 2017.
[9] Ke Li and Jitendra Malik. Learning to Optimize. 2017
[10] Paul Christiano, Zain Shah, Igor Mordatch, Jonas Schneider, Trevor
Blackwell, Joshua Tobin, Pieter Abbeel, and Wojciech Zaremba. Trans-
fer from Simulation to Real World through Learning Deep Inverse
Dynamics Model. arXiv:1610.03518, 2016.
[11] Andrei A Rusu, Matej V ecerik, Thomas Rothörl, Nicolas Heess, Razvan Pascanu, and Raia Hadsell. Sim-to-Real Robot Learning from Pixels
with Progressive Nets. In CoRL, 2017.
[12] Eric Tzeng, Coline Devin, Judy Hoffman, Chelsea Finn, Xingchao
Peng, Sergey Levine, Kate Saenko, and Trevor Darrell. Towards
Adapting Deep Visuomotor Representations from Simulated to Real
Environments. In WAFR, 2016
[13] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C
Courville, Ruslan Salakhutdinov, Richard S Zemel, and Y oshua Bengio.
Show, Attend and Tell: Neural Image Caption Generation with Visual
Attention. In ICML, volume 14, 2015.
[14] Brenden M Lake, Tomer D Ullman, Joshua B Tenenbaum, and
Samuel J Gershman. Building Machines That Learn and Think Like
People. The Behavioral and Brain Sciences, page 1, 2016.
[15] Richard Bellman. On the Theory of Dynamic Programming. PNAS,
38(8):716–719, 1952.
[16] Richard S Sutton and Andrew G Barto. Reinforcement Learning: An
Introduction. MIT Press, 1998
在碎片化
阅读
充斥眼球的时代,越来越少的人会去关注每篇
论文
背后的探索和思考。在这个栏目里,你会快速 get 每篇精选
论文
的亮点和痛点,时刻紧跟 AI 前沿成果。点击本文底部的「
阅读
原文」即刻加入社区,查看更多最新
论文
推荐。这是 PaperDaily 的第 30 篇文章关于作者:王凌霄(社区ID @Nevertiree),中国科学院自动化研究所实习生,研究方向为强化学习和多智能体。这两天我
阅读
了两篇篇
本博客是对学习李宏毅教授在youtube上传的课程视频《
Deep
Re
info
rcement
L
ear
ning
: Scratching the surface》所做的笔记,供大家学习参考。需要翻墙:课程视频链接热度起源
RL的方案
学习Go监督学习与增强学习
RL的难点
后面内容的大纲
Policy-based ApproachL
ear
ning
an Actor热度起源
15年2月:Goo
Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath
文章目录摘要 Abstract1. 引言 Introduction2. 奖励驱动行为 Reward-Driven Behavior2.1. 马尔科夫决策过程 Markov Decision Processes2.2. 强化学习的挑
http://incompleteideas.net/sutton/book/the-book-2nd.html
《Re
info
rcement
L
ear
ning
: An Introduction》,Richard S. Sutton和Andrew G. Barto著。
注:Richard S. Sutton,加拿大计算机科学家,麻省大学阿姆赫斯特分校博士(1984年),阿尔伯塔大学教授。强...
1 introduction
用于解决推荐问题的方法:collaborative filtering(协同过滤), content-based filtering(基于内容), and hybrid methods(混合)
上述方法存在的问题:cold start(冷启动), serendipity(惊喜度), scalability
1、Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, Yoshua Bengio ;Pr...
注意力机制 Attention
我们以机器翻译为例,来探究引入注意力机制Attention:
当我们使用Seq2Seq 进行机器翻译的过程中,最后的输入对结果影响响度比较大,因为Encode的输出是在尾部(图中粉红色部分)。直觉上想,一段话的翻译的的过程中,输入句子的每一个部分都可能对正在翻译的内容会有不同的影响。
1. 模型定义
(1) 我们定义z与h进行match,二者先看一下模型示意图:...
机器学习及其相关领域,如深度学习、自然语言处理、计算机视觉、推荐系统、强化学习等领域最近几年非常火,每年各式各样的国际顶会,投稿数每年都会海量增加。要持续Follow这些领域最新的技术,刷遍各大会议最新会议非常费时费力,特别是对于刚入门的同学。因此,为了方便同学们了...
Schmidhuber, J.
Deep
L
ear
ning
in Neural Networks: An Overview. Neural Netw. 2015, 61, 85–117. [CrossRef] [PubMed]
Bengio, Y.; LeCun, Y.; Hinton, G.
Deep
L
ear
ning
. Nature 2015, 521, 436–444.
Bengio, Y...
论文
研读——
Survey
of
Deep
Re
info
rcement
L
ear
ning
for Motion Plan
ning
of Autonomous V ehicles
除了经典的控制设计方法外,人工智能和机器学习方法几乎都存在于这些领域。另一部分研究集中在运动规划的不同层面,如战略决策、轨迹规划和控制。机器学习本身已经开发了广泛的技术,本文将介绍其中的一个领域——
深度强化学习
(
Deep
Re
info
rcement
L
ear
ning
, DRL)。本文深入了解了分层运动规划问题,并描述了DRL的基
来源:PaperWeekly作者:王凌霄本文共2434字,建议
阅读
5分钟。本文为大家分享了73篇
论文
,介绍深度学习的方法策略以及关键问题分析。这两天我
阅读
了两篇篇猛文 A
Brief
Survey
of
Deep
Re
info
rcement
L
ear
ning
和
Deep
Re
info
rcement
L
ear
ning
: An Overview,作者排山倒海的引用了 200 多篇文献,阐述强化学习未