Stata统计分析与实验指导(视频教学版)
上QQ阅读APP看书,第一时间看更新

实验4-1 单因素方差分析

 实验基本原理

方差分析的目的是检验各个水平的均值是否相等,实现这个目的的手段是通过方差的比较。

观察值之间的差异来自于两个方面:一个是由不同水平造成的系统性差异;另一个是由抽选样本的随机性而产生的差异。这两个方面产生的差异可以用两个方差来衡量:一个称为水平之间的方差,是由系统性因素和随机性因素共同造成的;另一个称为水平内部的方差,仅由随机性因素造成。如果不同的水平对结果没有影响,在水平之间的方差中就只有随机因素的差异,而没有系统性的差异,所以两个方差的比值应接近于1;否则两个方差的差异较大。

一般情况下,单因素方差分析的数据如表4.1所示排列。

表4.1 单因素方差分析表

注:在这里水平均值的计算方法为,总均值的计算方法为

方差分析的过程如下:

01 提出原假设是“水平对结果没有影响”,备择假设是“水平对结果有影响”。

02 所使用的统计量是:

这个统计量的功能是用来衡量是否具有系统性差异,即水平对结果是否有影响。其中,MSA称为组间均方,其值包括系统性差异和随机性差异,SSA是水平项离差平方和,其计算公式为:

MSE称为组内均方,其值只包括随机性差异,SSE是误差项离差平方和,其计算公式为:

03 分析结论:若F>Fα,则拒绝原假设,认为存在系统性差异,即水平对结果有影响;否则,接受原假设。

 实验目的与要求

(一)实验目的

1.熟悉单因素方差分析的基本原理。

2.熟悉单因素方差分析的命令语句和显示结果的含义。

(二)实验要求

1.熟练掌握单因素方差分析的方法和命令语句。

2.熟练掌握单因素方差分析的输出结果所代表的含义,并对原假设做出合理的判断。

 实验内容及数据来源

实验数据来源于对某种饮料的销售调查,这种饮料有4种颜色,在5家超市进行销售,其中变量sales代表销售量(单位:百瓶),变量color代表颜色。完整的数据位于本书下载资源\data\第4章\sales.dta工作文件中,数据如表4.2所示。

表4.2 sales.dta部分数据

利用数据分析颜色是否对销售量有显著影响,即分析不同颜色的销售量总体均值是否相等。

 实验操作指导

单因素方差分析的基本命令语句如下:

     Oneway response_var factor_var [if] [in] [weight] [, options]

其中,response_var代表将要测量的变量名称;factor_var代表分类变量名称,即水平名称;if是条件语句;in是范围语句;weight是权重语句。单因素方差分析中的options选项较多,内容如表4.3所示。

表4.3 单因素方差分析命令的可选项

sales.dta数据反映的是一种饮料的销售情况,除颜色之外,其他条件全部相同,因此可利用单因素方差分析法来分析饮料的颜色是否对销售量有影响。

在Stata中打开数据文件时输入如下命令语句:

     oneway sales color, tabulate

sales(销量)是将要分析的变量;color是分类变量,也就是水平变量;tabulate的作用是产生有关数据的汇总表。显示结果如图4.1所示。

图4.1 单因素方差分析结果图

用户不难发现,这个结果显示了两个数据列表:第一个数据列表是tabulate选项的执行结果,即汇总表,反映了数据的整体情况;第二个数据列表是方差分析的结果显示表。

  •  第一个表格中反映了每一个颜色种类的均值、标准差和频数,同时也累计了总体的这些统计特征值。
  •  第二个表格是方差分析的结果列表,表格中反映了水平项离差平方和SSA=76.85,自由度为3,组间均方MSA=25.62;误差项离差平方和SSE=39.08,自由度为16,组内均方MSE=2.44;统计量F=10.49,P值为0.0005,这意味着小概率事件发生,需要拒绝原假设,承认颜色对销售量是有影响的。

在进行方差分析时,需要注意方差分析法所需要满足的主要条件:随机变量相互独立,正态分布和同方差,所以在结果的最后一行Stata自动进行了同方差的检验,使用的方法为Bartlett检验。在本例中,检验的P值为0.926,没有拒绝同方差的原假设,所以方差分析的结果可以采纳。如果Bartlett检验拒绝了同方差的原假设,那么方差分析的结果不可信。

除了上面的oneway命令之外,stata的anova命令也可以完成这一过程,并且在运行完之后可以进行预测值和误差条形图的操作。如果用stata的anova命令完成这一过程,就需在命令窗口输入:

     anova sales color

sales(销量)是将要分析的变量;color是分类变量,也就是水平变量。显示结果如图4.2所示。

相对于oneway命令,anova命令没有tabulate选项的执行结果,也没有在后续结果中自动进行同方差的检验,但是方差分析的结果是一致的。color的方差分析F值为10.49,显著性P值为0.0005,意味着小概率事件发生,需要显著拒绝原假设,承认颜色对销售量是有影响的。

在使用anova命令进行方差分析之后,我们可以使用predict命令计算出预测值、残差、标准误以及各种统计量,还可以通过绘制误差条形图的方式来更加形象地观察模型的预测情况。

图4.2 单因素方差分析结果图

在本例中,我们依次输入以下命令:

     predict salesmean

本步旨在预测sales均值。

     label variable salesmean "mean sales scale"

将预测形成的sales均值添加标签为"mean sales scale"。

     predict SEsales,stdp

加上stdp选项,为了计算预测sales均值的标准误。

     serrbar salesmean SEsales color,scale(3) plot(line salesmean color,
clpattern(solid)) legend(off)

serrbar命令是告诉Stata绘制误差条形图,误差条形图的基本操作要领是在serrbar之后第一个变量(本例中为salesmean)往往是平均数变量,第二个变量(本例中为SEsales)为标准误变量(也可为标准差),第三个变量(本例中为color)为X轴。然后scale(3)是告诉Stata要绘制正负3倍标准差的条形图,或者说是【salesmean-3*SEsales,salesmean+3*SEsales】。plot选项可以指定另一个图,将其重叠显示到标准误差条形图上。输入上述命令以后,得到的结果如图4.3所示。

图4.3 单因素方差分析标准误差条形图

需要说明的是,上面绘制的单因素方差分析标准误差条形图是基于预测数据的。从中可以非常明确地看出,各种颜色对于销售量的影响差异是非常显著的,而且非常直观地显示了这种差异。预测发现,第4种颜色代表的销售量均值最高,然后是第2种颜色,接着是第1种颜色,最后是第3种颜色。该结论对于饮料生产销售商的政策含义是积极生产销售第4种颜色的饮料。