Stata统计分析与实验指导(视频教学版)
上QQ阅读APP看书,第一时间看更新

实验4-3 协方差分析

 实验基本原理

方差分析存在明显的弊端,因此无法控制分析中存在的某些随机因素,这也影响了分析结果的准确度。

协方差分析控制了这些干扰或调节因素,提高了实验的精确性和准确性,对实验以外的一切条件都采取了有效措施来严加控制,使它们在各个处理过程中尽量保持一致。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。例如,研究几种饲料对牛增重的影响,由于初始重量将会对增重造成影响,因此在这个实验中希望初始重量相同(排除初始重量对增重的影响),但是这个要求难以达到,所以必须通过增重与初始重量的线性关系进行调整,使之相同,然后进行实验,研究饲料对增重的影响。

协方差分析是对多因素方差分析的推进和拓展,不仅可以涵盖分类变量的情形,还可以将连续变量的情况包括在内。一般情况下,协方差分析将那些难以控制的因素作为协变量,从而在排除协变量影响的情况下,分析自变量、因变量的作用。当模型中只存在一个协变量时,叫作一元协方差分析,当有两个及以上的协变量时,叫作多元协方差分析。

 实验目的与要求

(一)实验目的

1.熟悉协方差分析的基本原理。

2.熟悉协方差分析的命令语句和显示结果的含义。

(二)实验要求

1.熟练掌握协方差分析的方法和命令语句。

2.熟练掌握协方差分析的输出结果所代表的含义,并对原假设做出合理的判断。

 实验内容及数据来源

实验数据来源于对某国男性工作情况的调查,其中变量marriage为是否结婚的分类变量,child为是否拥有子女的分类变量,wage代表工资水平(单位:美元/每小时),educ代表受教育年限(单位:年)。完整的数据位于本书下载资源\data\第4章\workdata.dta工作文件中,部分数据显示如表4.7所示。

表4.7 部分数据

利用数据进行协方差分析:男性的工资会不会因结婚、有子女以及二者的互动和受教育年限的不同而产生差异。

 实验操作指导

协方差分析的基本命令语句与多因素方差分析的命令语句基本一致,命令如下:

     anova varname [term [/] [term [/] ...]] [if] [in] [weight] c.(varlist)
     [options]

这个命令语句与多因素方差分析命令语句的唯一不同是“c.(varlist)”,即必须指明连续变量,若不指明,则Stata默认除因变量之外的所有变量均为分类变量。

例如,在实验4-2中利用workdata.dta数据进行多因素方差分析的练习中,如果用户认为除婚姻、子女以及二者的交互项对工资有影响之外,受教育年限对工资水平也存在影响,想进一步验证,这时就需要进行协方差分析了,因为受教育年限是连续变量而不是分类变量。

进行这个研究时需要输入的命令语句为:

     anova wage child  marriagechild#marriagec.educ

c.educ的意义是:说明educ是一个连续变量,在一些Stata旧版本中,本例的命令应该是:anova wage child marriagechild#marriage, continuous(educ),这个命令语句较之实验4-2中的命令语句多了变量educ,并且指明educ是连续变量,这时协方差分析的结果如图4.6所示。

图4.6 协方差分析结果图

从结果图4.6中可以看到:整个模型的F检验值为102.19,P值为0,通过了检验;child、educ两个变量的P值分别为0.0033和0.0000,都通过了检验,所以可以认定二者分别对工资的差异产生了影响;marriage和child#marriage两个变量的P值分别为0.0006和0.0000,也都通过了检验,所以同样可以认定二者分别对工资的差异产生了影响。

通过实验原理,我们知道协方差分析是借助回归分析完成的,所以可以通过添加regress选项的形式使回归的结果得到展示,使变量间的关系得到更清晰的展现。在做完前述协方差分析后,输入回归分析命令语句如下:

     regress

这时得到的结果如图4.7所示。

图4.7 协方差分析回归图

在结果图4.7中,可以看到这个图形展示了回归分析的内容,有关此内容的详细解释将会在第6章中给出,这里不再赘述。