添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
  • 5.2.1 Principal component analysis (PCA)
  • 5.2.2 k-means聚类
  • 5.2.3 分层聚类(Hierarchical clsutering)
  • 5.3 监督分类
  • 5.3.1 KNN分类(k-nearest neighbour classification)
  • 5.3.2 决策树(Decision trees)
  • 5.3.3 支持向量机(SVM)
  • 5.3.4 随机森林(Random Forest)
  • 5.4 深度学习(Deep Learning)
  • www.shud.xyz
  • 5.1 可用数据集

    Iris数据集是常用的分类实验数据集,由Fisher(1936)收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度(Sepal Length),花萼宽度(Sepal Width),花瓣长度(Petal Length),花瓣宽度(Petal Width)4个属性预测鸢尾花卉属于(Setosa, Versicolour,Virginica)三个种类中的哪一类。四个特征变量的单位都是厘米(cm)。 m表示样本量的大小,n表示每个样本所具有的特征数。因此在该数据集中,m=150,n=4。

    5.2.1 Principal component analysis (PCA)

    在多元统计分析中,PCA是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。

    基本思想:

  • 将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分。
  • C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
  • 以此类推,找到第三主成分,第四主成分……第p个主成分。p个随机变量可以有p个主成分[1]。
  • 主成分分析经常用于减少数据集的维数,同时保留数据集当中对方差贡献最大的特征。这是通过保留低维主成分,忽略高维主成分做到的。这样低维成分往往能够保留住数据的最重要部分。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

    PCA被广泛使用于以下方面: - 在特征中找到结构 - 其他机器学习算法的预处理 - 有助于可视化。

    K-mean算法的目标是把n个观测放到k个聚类(cluster)中间去,使得每一个观测都被放到离它最近的那个聚类中去,这里“最近”是用这个观测跟相对应的聚类的平均值(mean)的距离(distance)来衡量的。