添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

分类变量

说明事物类别的名称
收藏
0 有用+1
0
分类变量(categorical variable)是说明事物类别的一个名称,其取值是 分类数据 。如“性别”就是一个分类变量,其 变量值 为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造 业”等。 [1]
中文名
分类变量
外文名
categorical variable
特    点
定性
表    现
互不相容的类别或属性
性    质
是说明事物类别的一个名称,其取值是分类数据
示    例
“性别”、“行业”等

简介

(categorical variable):其 变量值 是定性的,表现为互 不相容 的类别或属性。
序次 测度变量和名义测度变量的 处理方法 一样,所以一般并不加以区分,序次测度变量常作为名义测度变量来用,把二者合称为分类变量。

哑变量

分类 自变量 哑变量 (dummy variables)编码来源: 生物统计学 论坛 在多重回归、Logistic回归模型中,自变量可以是连续型变量(interval variables),也可以是二项分类变量,和多分类变量。为了便于解释,对二项分类变量(如好坏、死活、发病不发病等)一般按0、1编码,一般0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么所得的logistic回归OR=exp(2beta),多重回归的beta同样增加一倍,容易造成错误的解释。因此建议尽量避免“+1”、“-1”编码形式。多分类变量又可分为有序(等级)或无序(也叫名义),如果是有序( ordinal )分类变量,一般可按对 因变量 影响由小到大的 顺序编码 为1、2、3、...,或按数据的自然大小,将它当作连续型变量处理。如果是无序的(nominal)分类变量,则需要采用哑变量(dummy variables)进行编码,下面以职业(J)为例加予以说明。 假如 职业分类 为工、农、商、学、兵5类,则可定义比分类数少1个,即5-1=4个哑变量

类型

变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如 血红蛋白 量(g/L)原属 数值变量 ,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度 贫血 中度贫血 轻度贫血 、正常、血红蛋白增高分为五个等级时,可按等级资料分析(资料是根据 临床数据 得出)。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料( 定量资料 )分析。

分类

无序分类变量(unordered categorical variable)是指所 分类别 或属性之间无程度和顺序的差别。,它又可分为① 二项分类 ,如性别(男、女), 药物反应 (阴性和阳性)等;②多项分类,如 血型 (O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的 观察单位 数,编制分类变量的 频数表 ,所得资料为无序分类资料,亦称 计数资料
有序分类变量 (ordinal categorical variable)各类别之间有程度的差别。如 尿糖 化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为 等级资料