数据标准化
# 特征筛选
# 1、作用
数据标准化包括 去量纲化 和 一致化 。去量纲化旨在消除不同指标由于量纲差异导致的不可比性。故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析和比较。
例如,某个变量的数值在1-10之间,而另一个变量的数值范围在100-1000之间,此时若进行综合评价,从数值的角度,很有可能数值变化范围大的变量,它的绝对作用就会较大,所占的比重较大。
一致化是确保所有指标的作用方向一致。在评价多个指标的综合作用时,有些指标是正向指标,即数值越大越好;而有些是负向指标,即数值越小越好。如果直接将这两类指标的效果直接相加,由于作用方向不同会导致评价结果失真。因此,需要对逆向指标进行一致化处理,通常是通过取反或其他适当的转换方法,以确保所有指标在综合评价中的作用方向一致。
# 2、输入输出描述
输入
:一项或以上定量变量。
输出
:新生成标准化后的变量。
# 3、案例示例
案例 :现有某个年级关于各个班级的平均分以及优秀率、挂科率。仔细观察数据,文化平均分和体育平均分它们的数据量纲不一样,文化科的总分是100,体育的总分是50,如果我们不做数据标准化,那么肯定是文化科更能影响综合评价结果(因为文化课的值更大),所以需要对数据进行标准化处理。另外,去评价一个班级的综合水平,我们期望平均分、优秀率越高越好,挂科率越小越好,这就需要我们去对平均分、优秀率指标做正向指标处理,对挂科率做负向指标处理。
# 4、案例数据
数据标准化案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【数据标准化】;
Step5:查看对应的数据数据格式,【数据标准化】要求变量为定量变量,且至少有一项;
Step6:确认参数,有多种数据标准的方法可选择;