Stata面板数据的预处理
一、面板数据的预处理概述
面板数据模型的一般形式为:
其中,y,是被解释变量, x…X是k个解释变量, N是横截面个体成员的个数, T为每个截面成员的样本观测时期数,参数α,为面板数据
模型的截矩项,β …,β对应k个解释变量的系数。
面板数据预处理包括设置面板数据、面板数据描述性统计分析、显示面板数据分布频率、绘制截面趋势图等。其中设置面板数据是进行面板数据分析的前提,与时间序列数据需要指定时间变量类似, Stata并不能智能认定数据文件为面板数据,需要用户进行指定。面板数据描述性统计分析可以获取时间序列和横截面双维度上的描述统计量。显示面板数据分布频率通常针对分类变量,通过观察分布频率获得更多信息。绘制截面趋势图是为了了解不同截面上变量随时间的变化趋势。
二、 面板数据预处理的Stata操作
1 .设置面板数据
设置面板数据的命令为xtset ,该命令的语法格式为:
xtset panelvar timevar [,tsoptions]
xtset为命令, panelvar为截面变量, timevar为时间变量,在设置面板数据时,要求截面变量和时间变量都必须为数值型整数, [,tsoptions] 为可选项。
如果要显示当前已设置的面板数据,则命令为:
xtset
如果要清除已设置的面板数据,则命令为:
xtset, clear
当用户设置好面板数据后,可以进行保存,下次再使用相同的数据时,无须再次设置。
2 .面板数据描述性统计分析
面板数据描述性统计分析的命令为xtsum ,该命令的语法格式为:
xtsum [varlist] [if]
xtsum为面板数据描述性统计分析的命令, [varlist]为变量列表, [if]为条件表达式。
3 .显示面板数据分布频率
显示面板数据分布频率的命令为xttab ,该命令的语法格式为:
xttab varname [if]
xttab为显示面板数据分布频率的命令,可以获取时间序列和横截面双维度上的分布频率, varname为变量名, [if]为条件表达式。
4 .绘制截面趋势图
绘制截面趋势图的命令为xtline ,该命令的语法格式为:
xtline varlist [if] [in] [,panel options]
xtline为绘制截面趋势图的命令, [varlist]为变量列表, [if]为条件表达式, [in]用于设置样本范围。 [,panel options]为可选项,主要包括下表所示的几项。
我们还可以将不同截面的趋势变化绘制到一幅图中,即加入overlay 选项,相应的命令及其语法格式为:
xtline varname [if][in], overlay [overlaid options]
三、面板数据预处理示例
使用的案例数据来自“数据14”数据文件,其中的数据来自XX
饮料连锁企业在各省市的各个连锁店2015-2019年的相关销售数据(包括销售收入、促销费用以及创造利润等数据)。文件中共有5个变量,
分别是年份、销售收入、促销费用、创造利润以及地区。我们把年份变量定义为year, 把销售收入变量定义为sale, 把促销费用变量定义为
cost, 把创造利润变量定义为profit,把地区变量定义为shengshi。 变量类型及长度为系统默认方式。其中shengshi为字符串变量, year、sale、 cost、profit四个变量均为数值型变量,如下图所示。
在“数据14”数据文件的命令窗口中输入:
encode shengshi,gen(region)
因为面板数据要求其中的个体变量取值必须为整数且不允许有重复,所以需要对各个观测样本进行有序编号。本命令旨在将shengshi这 一字符串变量转化为数值型变量,以便进行下一步操作,结果如下图所示。
xtset region year
本命令的含义是对面板数据进行定义,其中横截面维度变量为上一步生成的region, 时间序列变量为year, 该命令的执行结果如下图所
示。可以看出这是一个平衡的面板数据。
xtdes
本命令旨在观测面板数据的结构,考察面板数据的特征,为后续分析做好必要准备。下图是面板数据结构的结果,可以看出该面板数据的横截面维度region为1~20共20个取值,时间序列维度year为2015~2019 共5个取值,属于短面板数据,而且观测样本在时间上的分布也非常均匀。
Xtsum
本命令旨在显示面板数据组内、组间以及整体的统计指标,结果如下图所示。在短面板数据中,同一时间段内的不同观测样本构成一个组。可以看出,变量year的组间标准差是0,因为不同组的这一变量的取值完全相同,同时变量region的组内标准差也为0,所以分布在同一组的数据属于同一个地区。
xttab sale
本命令旨在显示sale变量组内、组间以及整体的分布频率,结果如下图所示,限于篇幅仅显示部分。其中sale取值为162.1的频数为1,在整体中占比为1%(全部共有100个样本)。在短面板数据中,同一时间段内的不同观测样本构成一个组,该面板数据的横截面维度region为
1~20共20个取值,时间序列维度year为2015~2019共5个取值,所以组内
(Within Percent
) 占比为20%(组内共有5个值),组间占比 (Between Percent) 为5%(组间共有20个值)。
xttab cost
xttab profit
上述命令旨在显示cost、profit变量组内、组间以及整体的分布频率。
xtline sale
本命令旨在对每个个体显示sale变量的时间序列图,结果如下图所示。可以看出不同地区的销售收入的时间趋势是不一致的,有的地区变化非常平稳,有的地区先升后降,有的地区先降后升。
xtline cost
xtline profit
上述命令旨在显示cost、profit变量的时间序列图。