添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

•分类器:weka里面将分类器分为7大类,包括bayes、functions、lazy、trees等。

functions中包含线性规划、SVM等。

lazy中有常用的IBk(k近邻算法)。

trees中有常用的决策树算法,比如weka中用J48实现C4.5算法

•测试选项常用的有四个:用作训练集、用作测试集、交叉检验(默认为10重交叉检验)、按比例分割(将数据集按一定比例分割为训练集和测试集)。此外还有一些关于分类器输出的选项,比如评价指标、选择将分类器代码以java语言输出等。

•结果列表中展示当前所有的分类结果,右击列表中的某一条结果会出现一些选项,比如visualize tree(可以图形化决策树)、visualize classifier errors(将分类结果以散点图表示,正确分类实例表示为小叉号,错误分类实例表示为空心小方块),还有一些其他选项

分类--C4.5分类及预测

•打开探索者界面,点击预处理选项卡后,导入标称型天气数据集(weather.arff),进入分类标签页后,选择J48分类器,test options 选择作为训练集后,将生成决策树,相关输出会在classifier output中输出。

•再次选择test options,选择作为测试集策略,然后在more options中找到output predictions 选择Plain Text,将输出测试情况。

使用WEKA进行分类分类•分类界面主要分为四部分:分类器选择、测试选项、结果列表、分类器输出。•分类器:weka里面将分类器分为7大类,包括bayes、functions、lazy、trees等。functions中包含线性规划、SVM等。lazy中有常用的IBk(k近邻算法)。trees中有常用的决策树算法,比如weka中用J48实现C4.5算法•测试选项常用的有四个:用作训练集、用作测试集、交... kdd99 数据集之前介绍过,没有看的可以参考:KDD CUP99数据集预处理(Python实现) 这里拿 kdd99 数据集练练手,主要目的是熟悉一下 weka 使用 。 1、数据集准备 使用 WEKA 数据挖掘 ,面临的第一个问题往往是我们的数据不是 ARFF 格式的。幸好, WEKA 还提供了对 CSV 文件的支持,而这种格式是被很多其他软件所支持的。 虽然 weka 也支持 csv 格式,但是建议还是转为 ARFF 格式最好。 1.1 简单打开一个 csv 文件(加载数据) (1)加载数据方式
训练数据和测试数据是从相同的总体中取出独立样本,结果自然存在误差。但我们可以通过设定随机种子和重复实验来估算误差。还可以通过实验计算平均值和方差。 1、打开Explorer界面,选择数据集segment-challenge.arff。 2、打开classify面板,选择J48 分类 器。 3、将Percentage split按比划 设为90%,即数据集的90%为 训练集 ,10%为 训练集 。点击“star...
训练数据经过 机器学习 算法(ML Algorithm)可以得到 分类 器,再将测试数据放入 分类 器,则可得到评估结果。 训练集 测试集 应来源于同一个数据集,但为两个不相交的集合。比如:将一个数据集的1/3作为 测试集 ,2/3作为 训练集 。 接下来通过一个简单的实验进一步理解训练与测试数据: 1、打开Explorer界面,选择数据集segment-challenge.arff。
1、 weka 来源 WEKA 的全名是怀卡托智能 析环境(Waikato Environment for Knowledge Analysis),同时 weka 也是新西兰的一种鸟名,而 WEKA 的主要开发者来自新西兰。 WEKA 作为一个公开的 数据挖掘 工作平台,集合了大量能承担 数据挖掘 任务的 机器学习 算法,包括对数据进行预处理, 分类 ,回归、聚类、关联规则以及在新的交互式界面上的可视化。 2、...
打开 Weka 后在弹出的 Weka GUI Chooser 中点击 Explorer,进入探索者界面。探索者界面是 Weka 最简单的 使用 界面。所有的 Weka 功能都能在这个界面中通过点击鼠标和表单填写来 使用 。由于很多选项都预设了常用的默认值, 使用 户以最小的代价取得结果。不过该界面也有缺点:它会把样本数据全部读入内存,所以 析的样本数据量不能太大。 在探索者界面有6个标签,我们一个一个说: 预处...
Output help information. -synopsis or -info Output synopsis for classifier (use in conjunction  with -h) Sets training file. Sets test file. If missing
根据1994年的美国人口普查数据进行 数据挖掘 析,我们将 使用 Weka 来探索那些收入超过50,000美元的人群。 Weka 是一种流行的 数据挖掘 机器学习 工具,可以用于处理和 析大规模的数据集。 使用 Weka ,我们可以探索人口普查数据中的各种特征和模式,以找到那些收入超过50,000美元的人群的共同特征。 首先,我们可以载入人口普查数据集到 Weka 中。数据集可能包含有关个人的各种属性,如年龄、教育水平、职业、工资等。我们需要 使用 Weka 提供的数据预处理功能对数据进行清洗和准备,确保数据的质量和完整性。 接下来,我们可以 使用 Weka 分类 算法来预测个人的收入水平。通过训练模型并 使用 历史数据,我们可以推断出哪些特征与超过50,000美元的收入相关联。常见的 分类 算法包括决策树、逻辑回归和支持向量机等。 在得出预测结果后,我们可以 使用 Weka 提供的可视化工具来展示收入超过50,000美元的人群的特征和模式。这有助于我们更好地理解数据,并为进一步的 析提供线索。 除此之外,我们可以 使用 Weka 进行特征选择和降维,以便建立更简约的模型和更好的解释能力。 Weka 提供了多种特征选择和降维技术,如主成 析和相关系数评估等。 总的来说, 使用 Weka 对1994年美国人口普查数据进行 数据挖掘 可以帮助我们找到收入超过50,000美元的人群的共同特征和模式。通过 析数据,我们可以获得有关该人群的洞察,并为进一步的研究和决策提供支持。