机器学习中强化学习与监督学习、无监督学习区别

link管理

链接快照平台

相关文章推荐

重感情的番茄 · 封面新闻· 2 周前 ·

稳重的打火机 · 【科普】藿香正气水和十滴水治疗中暑的区别-健 ...· 2 月前 ·

无邪的芹菜 · 国内外电子商务的现状与发展_中国人大网· 5 月前 ·

一身肌肉的麦片 · Enter Postgres ...· 6 月前 ·

神勇威武的弓箭 · PostgreSQL ...· 7 月前 ·

监督学习（Supervised learning）：

监督学习即具有特征（feature）和标签（label）的，即使数据是没有标签的，也可以通过学习特征和标签之间的关系，判断出标签——分类。

简言之：提供数据，预测标签。比如对动物猫和狗的图片进行预测，预测label为cat或者dog。

通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。

eg.分类和回归问题

无监督学习（Unsupervised learning）：

无监督学习即只有特征，没有标签，只有特征，没有标签的训练数据集中，通过数据之间的内在联系和相似性将他们分成若干类——聚类。根据数据本身的特性，从数据中根据某种度量学习出一些特性。

eg.比如一个人没有见过恐龙和鲨鱼，如果给他看了大量的恐龙和鲨鱼，虽然他没有恐龙和鲨鱼的概念，但是他能够观察出每个物种的共性和两个物种间的区别的，并对这两种动物予以区分。

简言之：给出数据，寻找隐藏的关系。

半监督学习（Semi-Supervised learning）：

半监督学习使用的数据，一部分是标记过的，而大部分是没有标记的，和监督学习相比较，半监督学习的成本较低，但是又能达到较高的准确度，即综合利用有类标的和没有类标的数据，来生成合适的分类函数。

简言之：少部分标记，大部分未知

强化学习（Reinforcement learning）：

强化学习与半监督学习类似，均使用未标记的数据，但是强化学习通过算法学习是否距离目标越来越近，我理解为激励与惩罚函数。类似生活中，女朋友不断调教直男友变成暖男。

简言之：通过不断激励与惩罚，达到最终目的。

（1）监督学习有反馈，无监督学习无反馈，强化学习是执行多步之后才反馈。

（2）强化学习的目标与监督学习的目标不一样，即强化学习看重的是行为序列下的长期收益，而监督学习往往关注的是和标签或已知输出的误差。

（3）强化学习的奖惩概念是没有正确或错误之分的，而监督学习标签就是正确的，并且强化学习是一个学习+决策的过程，有和环境交互的能力（交互的结果以惩罚的形式返回），而监督学习不具备。

----------------------------------- 心之所向，素履所往；生如逆旅，一苇以航。 ------------------------------------------