代表特殊因子,是不可直接观测的数据,在分析中一般省略 [5]。
3.1. 主成分法提取因子
因子提取的方法有多种,使用最多的是主成分法,此外还有最小二乘法(least squares)、极大似然法(maximum likelihood)等 [6]。本文将采用主成分法提取因子。
设观测数据为m个n维数据,其矩阵格式如式(2):
表示单个主成分。贡献率C越大,表明该主成分所包含原始变量的信息越强 [9]。主成分个数的选取,通常可以参考累积贡献率和主成分方差两个标准 [10],即一般要求累计贡献率达到80%以上,且主成分方差尽可能大于1。
将
表4
中01至96列的所有数值进行上述计算,且本文预设主成分个数K = 5 (可随机设置),然后根据贡献率和主成分方差两个标准,不断调整,得到K = 18时,结果比较符合期望。数据如
表5
所示。
Table 5
. Variance, proportion and cumulative rate of eigenvalues of correlation coefficient (P = 18)
表5
. 相关系数特征值的方差、占比及累积率(P = 18)
3.2. 因子旋转
因子旋转是为了让因子载荷两极分化 [11],要么接近0,要么接近1,这样有助于分析因子的属性,便于后期因子命名。常用的方法有:方差最大正交旋转法和斜交旋转法 [12]。本文采用方差最大正交旋转法进行因子旋转,其计算公式如式(9):
平方和就是该公共因子的方差,本文运用Spider得到因子的旋转结果如
图2
所示:
图2
. 因子分析结果
图2
包括Raw Components和Varimax Rotated Components两部分,各部分含义如下:
① Raw Components (主成分分析图):该图峰值围绕0.0的中轴线上下浮动,每个峰值表示每个主成分在每个变量上的权重值大小,但峰值比较不够明显。
② Varimax Rotated Components (因子旋转图):该图峰值集中围绕在0.0中轴线以上,且每个峰值大的越大,小的越小,可较清楚地看出峰值间的差别。
4. 聚类实现过程与结果
K-means聚类算法是一个迭代的过程 [12],其具体步骤如下:
1) 在样本中选取K个点作为初始质心,即每个K代表一个聚类中心;
2) 对每个样本点,本文通过欧式距离计算方式按照距离最近的原则将每个数据点划分到离它最近的聚类中心K所对应的类别中 [13];
3) 经过步骤2)后,形成了K个集合,即K个类别,然后重新计算每个类别的质心,更新聚类中心的位置;
4) 在3)中,如果新质心和旧质心间的距离小于某一阈值,则判断达到预期效果,算法终止,否则迭代2)~3)步骤 [14]。
通过聚类得到的数据类别如
图3
所示。
图3
. 数据类别展示
图3
中,每个索引对应一个企业,“原始数据”表示样本原始文本内容,“类别编号”是聚类得到的结果,“行业类别”是通过人工评价得到的企业具体所属的行业类别。
5. 评论与分析
每个企业经营范围包含多个行业类别,因此聚类结果中的每个类别是多个行业类别的融合。故本文对类别结果用0~17个数字表示,结果如
图4
所示。
图4
. 聚类分析结果
其中属于类别7 (销售业和零售业)的类别占比最大,为29.76%,其次是第8类(销售业,金属制品业,橡胶和塑料制品业及电气机械和器材制造业),占比为16.74%,
本文对聚类结果的评价方式是内部评价和人工评价 [15]。
内部评价是通过某些模型生成聚类的参数,来统一判别聚类效果。本文采用戴维森堡丁指数(DBI)判定聚类结果。戴维森堡丁指数(Davies Bouldin index, DBI)是由大卫L·戴维斯和唐纳德·堡丁提出的一种评估聚类算法优劣的指标 [16],其公式如式(10):
之间的距离,然后统计所有簇的相似度的最大值,对其求均值即可得到DBI指数。DBI最小值为0,DBI指数越小,相同类别内元素之间距离越小,不同类别间距离越大,代表聚类效果越好 [16]。本文的DBI指数为0.21,证明聚类效果较好。
人工评价是指聚类分析的结果与人工评价越接近越好 [16]。本文通过小范围的调查验证,对类别结果正确率进行判定。具体数据如
表6
所示。
Table 6
. Artificial evaluation by factor analysis
表6
. 因子分析法人工评价
6. 结束语
本文打破了传统聚类的思路,以《国民经济行业分类》作为标准文本,通过因子分析计算出标准文本对企业经营范围的贡献率,进而得到最佳聚类个数,最后进行聚类分析。
通过评价结果证明本文的聚类结果较好,但由于企业经营范围数据是企业实际经营中填写的数据,在一定程度上会与《国民经济行业分类》有一定的区别,因此后续可以根据本次聚类结果适当的构建词库,进一步提高聚类的准确性。
基金项目
国家自然科学基金项目(No. 61771347);广东省基础与应用基础研究基金(No. 2019A1515010716);广东省普通高校基础研究与应用基础研究重点项目(No. 2018KZDXM073)。
文章引用
曹 钰,何国辉,谭钜源. 基于因子分析和K-means聚类算法的行业聚类研究
Research on Industry Clustering Based on Factor Analysis and K-Means Clustering Algorithm[J]. 计算机科学与应用, 2020, 10(12): 2447-2456.
https://doi.org/10.12677/CSA.2020.1012260
参考文献
-
1. 陈正伟. 国民经济行业分类及应用[Z]. 重庆: 重庆工商大学, 2014.
-
2. 吴娇. 四川省各市州经济综合发展水平比较研究——基于因子分析和K-means聚类分析[J]. 知行铜仁, 2019(3): 35-39.
-
3. 彭凯, 秦永彬, 许道云. 应用因子分析和K-MEANS聚类的客户分群建模[J]. 计算机科学, 2011, 38(5): 154-158, 198.
-
4. 黎明, 熊伟. 基于因子分析与聚类分析的化妆品上市公司绩效评价[J]. 财会通讯, 2020(14): 96-99.
-
5. 任恒妮. 大数据K-means聚类算法的研究与应用[J]. 信息技术, 2019, 43(11): 20-23.
-
6. 王春枝. 因子分析中公因子提取方法的比较与选择[J]. 内蒙古财经学院学报(综合版), 2014, 12(1): 90-94.
-
7. Martinez-Martin, P., Rojo-Abuín, J.M., Weintraub, D., Chaudhuri, K.R., Rodriguez-Blázquez, C., Rizos, A. and Schrag, A. (2020) Factor Analysis and Clustering of the Movement Disorder Society-Non-Motor Rating Scale. Movement Disorders, 35, No. 6.
https://doi.org/10.1002/mds.28002
-
8. 韩雪, 张业, 朱聪慧. 企业经营范围文本自动分类方法探究[J]. 标准科学, 2012(1): 93-96.
-
9. Martinez-Martin, P., Rojo-Abuín, J.M., Weintraub, D., Chaudhuri, K.R., Rodriguez-Blázquez, C., Rizos, A. and Schrag, A. (2020) Factor Analysis and Clustering of the Movement Disorder Society-Non-Motor Rating Scale. Movement Disorders, 35, 969-975.
-
10. Subramaniyam, B.A., Muliyala, K.P., Suchandra, H.H. and Reddi, V.S.K. (2020) Diagnosing Catatonia and Its Dimen-sions: Cluster Analysis and Factor Solution Using the Bush Francis Catatonia Rating Scale (BFCRS). Asian Journal of Psychiatry, 52, 102002.
https://doi.org/10.1016/j.ajp.2020.102002
-
11. Wen, F., Du, H., Ding, L., Hu, J., Huang, Z., Huang, H., et al. (2020) Clinical Efficacy and Safety of Drug Interventions for Primary and Secondary Prevention of Osteoporotic Fractures in Postmenopausal Women: Network Meta-Analysis Followed by Factor and Cluster Analysis. PLoS ONE, 15, e0234123.
https://doi.org/10.1371/journal.pone.0234123
-
12. 秦志勇. 安徽省医疗卫生机构服务水平综合评价——基于因子分析和聚类分析方法[J]. 合肥学院学报(综合版), 2020, 37(2): 63-68.
-
13. Zhang, Q.H. (2019) Customers Segmentation Based on Factor Analysis and Cluster. E-Commerce Letters, 8, 53-62.
-
14. Wang, W. (2017) Stock Evaluation Based on Factor Analysis and Cluster-ing. Chongqing Technology and Business University. In: Proceedings of 2017 2nd International Seminar on Education Innovation and Economic Management (SEIEM 2017), Atlantis Press, 473-476.
https://doi.org/10.2991/seiem-17.2018.118
-
15. 金涛, 戴玉刚. 浅析文本聚类有效性评价的方法[J]. 中文信息, 2018(5): 3.
-
16. 黄越辉, 曲凯, 李驰, 司刚全. 基于K-means MCMC算法的中长期风电时间序列建模方法研究[J]. 电网技术, 2019, 43(7): 2469-2476.
●投稿须知
●最新文章