分享一个小案例预测明天是否会下雨预测明天是否会下雨直接给出链接,大家点击点解进行了解https://nbviewer.jupyter.org/github/SK-zhangyihe/ipynb/blob/master/20190918%E9%A2%84%E6%B5%8B%E4%B8%8B%E9%9B%A8.ipynb...
文章目录
数据
详情单变量分析离散值连续值建模逻辑回归模型评估随机森林随机森林调参朴素贝叶斯人工神经网络
数据
集来源https://www.
kaggle
.com/jsphyg/weather-dataset-rattle-package
数据
详情
包含了某段时间内,每一天的天气观测值,目的是为了
预测
明天
是否
会
下雨
Date:The date of observation
Location:The co...
通过使用澳大利亚的降雨
数据
集来
预测
明天
是否
会
下雨
的项目。此项目在很多ml模型(例如catboost,xgboost,随机森林,支持向量分类器等)上进行了测试。在这些模型中,catboost的表现非常出色给出的AUC得分和ROC得分都远胜于其他的89。 这里由于我的系统兼容性非常低。 所以我还没有完成超参数调整。 但是强烈建议您尽可能这样做。
网站链接:
下雨
天:
前端:HTML,CSS,Bootstrap
后端:烧瓶
IDE:Jupyter笔记本,Pycharm
如何运行这个程序
首先使用以下命令创建虚拟环境:
conda创建-n myenv
python
= 3.6
使用以下命令激活环境:
conda激活myenv
然后使用以下命令安装所有软件包
点安装-r requirements.txt
现在进入最后一步。 运行应用
python
ap
kaggle
比赛的解决方案,在排行榜上得分约为 0.00775。
要重现结果,请先运行“preprocess.py”,然后运行“classif_model.py”
原始
数据
转换
来自原始
数据
的每个样本都提供了这段时间内雷达测量的序列,因此对于每个样本和每个测量,我计算了一段时间内的一些聚合(平均值、最小值、最大值、50% 百分位数、标准差)。 这一步在实现
您可以在找到对预处理
数据
的一些主要分析
这一步在实现
对于模型评估,使用,根据该,我需要
预测
从 0 到 69 的降雨量的累积概率。
我认为这是一个多类分类问题。 为了首先建立累积概率,我需要
预测
以下每个雨量计范围的概率:0, (0, 1], (1, 2], ..., (68, 69], (69, +inf))。总共有 71 个范围,所以这是一个有 71 个类别的分类任务。
有些类非常小(频率
支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。我把
预测
明天
是否
会
下雨
这个案例处理过程中比较重要的知识点整理成思维导图的形式,希望对你有所帮助。
其中主要包括了
数据
与处理,建模与模型评估,模型调参。在处理这个案例时,最开始我把
数据
进行了切分,所以在后面处理
数据
一定要记得,特征和标签是一一对应的。例如,如果特征的行数索引改变,那么标签也要记得改。
对于
Kaggle
中的中风
预测
数据
集,
数据清洗
的主要步骤包括以下几个方面:
1. 删除重复记录:首先,需要检查
数据
中
是否
存在重复的记录,如果存在,则需要将其删除,以确保
数据
的准确性和一致性。
2. 处理缺失值:检查
数据
集中
是否
存在缺失值,如果存在,则需要对缺失值进行处理。处理缺失值的方式通常有删除、插值和替换等方法。
3. 处理异常值:检查
数据
集中
是否
存在异常值,如果存在,则需要将其处理,以确保
数据
的准确性和可靠性。
4. 转换
数据
类型:将
数据
集中的
数据
类型进行转换,以确保正确的
数据
类型和格式。
5. 特征选择:对于
数据
集中的特征,需要进行特征选择,选择对于
预测
中风有用的特征,并删除不必要的特征。
6.
数据
标准化:对于
数据
集中的数值特征,需要进行标准化或归一化,使得不同特征的
数据
具有相同的尺度和范围。
数据清洗
是机器学习中非常重要的一步,可以有效地提高模型的准确性和可靠性。