添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
Feature Selection(特征选择) Feature construction(特征构造) 等子问题, 而数据预处理又包括了数据清洗和特征预处理等子问题 ,本章内容主要讨论数据预处理的方法及实现。 0. 特征预处理介绍

特征预处理包括 无量纲化 特征分桶 统计变换 特征编码 等步骤,详情可参考下图:

1. 数值型特征无量纲化

我们的数据一般都是有单位的,比如身高的单位有m,cm,这个无量纲化并不是说把m变成cm,而是说,无论是m还是cm,最后都会变成1,也就是没有了单位。

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有 标准化 归一化

数据标准化的原因:

  • 某些算法要求样本具有零均值和单位方差;
  • 需要消除样本不同属性具有不同量级时的影响。

归一化有可能提高精度