Stata统计分析与实验指导(视频教学版)
上QQ阅读APP看书,第一时间看更新

1.4 Stata 15.0新功能概述

Stata 15.0于2017年6月正式发布,这是Stata有史以来最大的一次版本更新,其中新增加的重要功能已经在其官方网站(https://www.stata.com/new-in-stata/)发布,主要包括:

  •  扩展回归模型(ERMs)
  •  潜在类分析(LCA)
  •  使用贝叶斯前缀的贝叶斯回归模型
  •  线性动态随机一般均衡(DSGE)模型
  •  使用dyndoc将动态标记文档转换为HTML
  •  有限混合模型(FMMs)
  •  空间自回归模型
  •  区间删失数据的参数生存模型
  •  非线性混合效应模型
  •  选择性混合Logit回归
  •  非参数回归
  •  贝叶斯多级模型
  •  门限回归模型
  •  具有随机系数和截断的面板数据tobit模型
  •  轻松导入美联储经济数据
  •  多级混合效应区间回归
  •  面板数据协整检验
  •  参数稳定性累积和检验
  •  多组广义结构方程模型(SEM)
  •  线性回归的幂分析
  •  Heteroskedastic线性回归
  •  具有样本选择的泊松模型
  •  其他,支持瑞典语、对DO文件编辑器的改进、流随机数生成器、对于Java插件的改进、Stata/MP更多的并行化等。

需要特别说明和解释的是,本书关于Stata 15.0新功能的介绍都源于Stata官方网站,网站上的新功能介绍与说明均为英文,本书截取了其中的关键部分进行翻译,并注明了英文版引用地址。

1.扩展回归模型(ERMs)(1)

Stata 15.0新增了扩展回归模型(ERMs)功能,该功能非常强大,包括4个模型新命令,分别是:

  •  线性模型
  •  具有区间审查结果的线性模型,包括tobit模型
  •  probit模型
  •  有序probit模型

在4个基本模型命令的基础上,还可以增加如下选项,

  •  endogenous ( ):解决内生变量问题。
  •  select( ):解决样本选择问题。
  •  entreat( ):解决非随机处理任务问题。
  •  extreat( ):解决内源性(Heckman-Style)样本的选择问题。

上述命令及选项组合可以用来较好地解决如下问题:由于未测量的混淆造成的偏差、具有信息丢失的试验、因果推论、平均因果效应(ACE)、平均处理效果(ATEs)、线性模型中同时存在的因果关系、非随机缺失的结果(MNAR)、不可忽略的无响应、不可观测的选择、Heckman选择等。事实上,以上所有问题都可以归于一个或多个内生变量、样本选择(缺失)和非随机处理分配。

简单来说,ERMs不是黑科技,ERMs允许用户对数据存在的问题建模。ERMs的语法是一个命令,例如eregress,后面跟着主方程,然后跟着一个或多个endogenous( )、select( )和entreat( )或extreat( )选项。可以用任何组合指定选项。

例如,y在x1和x2上的线性回归:

仔细看,用户会发现我们在选择和处理方程中都指定了内生协变量。ERMs能够适应这样的模型是非常了不起的。ERMs有一个语法和4个选项。endogenous( )选项可在必要时重复,比如使x2和x3是内生的:

在这个例子中,内生变量x3出现在y和x2的方程中。如果不让x3出现在主方程中,就会输入:

即使指定nomain,也可以在主方程中包含变量,只要明确地这样做:

与用回溯法来拟合线性回归模型相同的语法也适用于用eintreg来拟合区间回归模型、用eprobit来拟合probit模型、用eoprobit来拟合有序probit模型,例如:

还有一点要知道,内生方程本身可以是probit或有序probit。在以下模型中,内生协变量x3是二元的,采用probit建模。

x3现在是二元内生协变量:

2.潜在类分析(LCA)(2)

我们相信在整个群体中有一些子群体,而在这些子群体中个体的行为是不同的,但是我们没有一个变量来标识这些子群体。这些子群体可能是具有不同购买偏好的消费者、具有不同行为模式的青少年或健康状况分类。LCA让我们识别和理解这些未观察到的子群体。它让我们知道谁可能在一个子群体中,以及这个子群体的特征与其他子群体有何不同。

在潜在类分析(LCA)模型中,使用一个分类的潜变量来表示子群体组。我们将子群体组称为类。

潜在类模型包含两部分:一部分是符合谁属于哪一类的概率;另一部分用于描述类和观察变量之间的关系。

Stata可以适用的潜在类分析(LCA)经典模型包括:

  •  类隶属概率模型
  •  二项模型
  •  扩展模型
3.使用贝叶斯前缀的贝叶斯回归模型(3)

拟合贝叶斯回归模型与在Stata中引入新的贝叶斯前缀进行贝叶斯推理一样直观。bayes前缀结合了Bayesian特性和Stata对回归模型的直观而优雅的规范。它可以让用户更容易地拟合贝叶斯回归模型,并拟合更多的模型。

比如用户可以用线性回归来拟合:

     . regress y x1 x2

现在用户可以用简单的方法来拟合贝叶斯线性回归:

     . bayes: regress y x1 x2

这种操作是很方便的,因为用户可以更加简单地应用贝叶斯线性回归。用户以前在很大程度上不能做的是适应贝叶斯回归模型,现在用户可以。

     . bayes: streg x1 x2, distribution(weibull)

用户可以在许多回归模型中使用bayes前缀,包括logistic、有序probit、多项式逻辑、泊松、广义线性、条件逻辑、零膨胀、样本选择等。多层模型也是支持的模型之一,有关详细信息可参见Stata 15.0中的贝叶斯多层模型。

Stata的所有贝叶斯特性都由新的贝叶斯前缀支持。用户可以从许多先前的发行版中选择模型参数,或者使用默认的先验,甚至可以定义用户自己的先验。用户可以使用默认的自适应Metropolis–Hastings抽样、Gibbs抽样以及两种抽样方法的组合。用户还可以使用bayesmh命令([BAYES] bayesmh)中包含的任何其他特性。

经过估计,用户可以使用Stata的标准贝叶斯后续估计工具,例如:

  •  检验收敛性的贝叶斯图。
  •  bayesstats摘要用于估计模型参数的函数。
  •  bayesstatsic与bayestest模型进行比较。
  •  bayestest区间进行区间假设检验。
4.线性动态随机一般均衡(DSGE)模型(4)

在宏观经济学中,动态随机一般均衡模型被用来描述经济结构。这些模型由经济理论导出的方程组组成。在这些模型中,对未来变量的预期在决定当前变量的值方面起着重要作用。与经济理论的紧密联系以及预期未来变量的存在使DSGE模型有别于向量自回归等多时间序列模型。

不同的DSGE模型关注经济的不同部分,宏观经济学家使用这些模型来评估政策对经济结果的影响,如产出增长、通货膨胀和利率。DSGE模型可以嵌套多种理论,其估计的参数值能够说明哪些理论更适用于数据。

Stata的新dsge命令估计dsge模型的参数,这些参数在变量中是线性的,但在参数中可能是非线性的。

比如DSGE模型可能提出通货膨胀、利率和产出缺口等经济变量之间的关系。其中一些变量是可以观察到的,比如通货膨胀,其他的将是不可观测的,比如产出缺口。这些变量将由一个方程组联系起来。不同的理论提出了不同形式的方程,参数估计可以帮助我们区分不同的理论。其中一些方程具有前瞻性因素,因此对未来经济发展的预期会影响当期变量。模型将由冲击驱动,这些冲击将通过状态变量输入模型。

5.使用dyndoc将动态标记文档转换为HTML(5)

用户是否曾经想要创建Word、PDF或HTML文件来报告用户所做的工作?Stata 15.0提供了3个新命令,如表1.2所示。

表1.2 Stata 15.0用于创建文件的新命令

下面介绍dyndoc。

首先创建一个文件,其中包含要使用Markdown文本格式化语言和Stata命令进行格式化的文本,Stata命令将生成用户希望在最终文档中得到的输出。Markdown是一种简单的、标准化的文本格式语言,用户可以在Wikipedia上阅读它。用户可以将Markdown与Stata命令混合使用以创建用户想要的输出。

用户还可以运行dyndoc生成一个Web页面—一个HTML文件。生成的HTML文件将包含格式化的文本以及Stata输出和命令生成的图形。

6.有限混合模型(FMMs)(6)

人口通常分为群体或子群体、年龄群体、收入阶层、教育水平。这些组之间的回归模型或分布可能有所不同。但有时我们没有一个变量来识别这些组,也许只是缺少了标识变量,也许很难收集,如诚实的关于药物使用、金鱼性别的报告等,也许它本质上是不可观察的,如对冒险行为的偏好、存钱的高倾向等。在这种情况下,我们可以使用有限混合模型(FMMs)来建模属于每个未观察组的概率,估计回归模型的不同参数或在每个组中的分布,将个体分类到组中,并对每个组的行为进行推断。

例如,我们可能想要基于年龄和医疗条件来模拟一个人每年看医生的次数。然而,对于倾向于在出现问题的第一个迹象时就安排预约的人和等到情况更严重时才安排预约的人来说,这种模式可能有所不同。汽车保险公司可能希望将驾驶员分为风险类别。这些类别可能是高、低风险,也可能是高、中、低风险。使用FMMs可以估计出属于一个组的概率,并适合组特定的模型。

继续以保险公司为例。如果对拟合线性回归模型感兴趣:

     regress y x1 x2 x3

相信有两个风险类别,可以加上fmm:前缀:

     . fmm 2: regress y x1 x2 x3

并拟合两种回归模型的混合。

fmm:也可以与其他估计模型一起使用。在上面的例子中,y是一个连续的结果。如果y是二进制的,就可能代表发生意外或者没有发生意外,我们可以输入:

     . fmm 2: logit y x1 x2 x3

或者

     . fmm 2: probit y x1 x2 x3

如果y是计数结果,我们可以输入:

     . fmm 2: poisson y x1 x2 x3

如果我们认为有3种风险类别,我们可以输入:

     . fmm 3: poisson y x1 x2 x3

fmm:前缀可与以下17个估计模型一起使用:

  •  regress
  •  tobit
  •  intreg
  •  truncreg
  •  ivregress
  •  poisson
  •  tpoisson
  •  nbreg
  •  streg
  •  logit
  •  ologit
  •  mlogit
  •  probit
  •  oprobit
  •  cloglog
  •  betareg
  •  glm
7.空间自回归模型(7)

邻镇之间的相互影响大于远镇之间的相互影响。对于彼此关系密切的国家和社交媒体上关系密切的朋友来说,情况也是如此。

空间自回归模型适用于包含地理区域观测数据的数据集。观测被称为空间单位,可以是国家、州、县、邮政编码或城市街区。或者,它们可能根本不是基于地理位置的,它们可以是社交网络的节点。

数据集包含一个连续的结果变量,如发病率、农场产量或犯罪率,以及预测结果的其他变量。对于横断面数据,每个变量在每个空间单元上都有一个值。对于面板数据,不同时间点通常有多个值。

Stata 15.0新的spregress、spivregress和spxtregress命令允许因变量的空间滞后、自变量的空间滞后和空间自回归误差。空间滞后是时间序列滞后的空间模拟。时间序列滞后近年来成为变量值。空间滞后是附近地区的值。

空间自回归模型参考手册完全致力于SAR模型的拟合、空间数据的处理以及空间权重矩阵的创建和管理。这些新命令集合被称为Sp命令。

拟合SAR模型有3个步骤:

(1)准备好数据以便分析。

(2)创建模型所需的空间加权矩阵。

(3)运行SAR模型。

Stata的Sp命令可以使用或不使用shapefile,这些文件通常用于定义映射。它们可以处理其他位置的数据,甚至可以处理完全没有位置的数据,比如社交网络数据。

8.区间删失数据的参数生存模型(8)

删失数据是生存分析的一个主要特征。删失数据不是缺失数据,它是可以观察到的,但是数据常常由于各种原因而被截断。在生存分析中,时间对感兴趣的事件并不总是观察到的。它可以是右删失、左删失或间隔删失。一项医学研究可能包括对乳腺癌患者的随访,定期对患者进行复发检测。如果发现癌症,复发的时间就不能准确测量。如果癌症在第一次就诊前复发,时间就会被保留。如果在两次访问之间重复出现,时间就会受到间隔删失。如果最后一次检查没有复发,检查时间就是正确的。

这同样适用于许多其他例子,如经济数据中的失业持续时间、人口数据中的断奶时间或流行病学数据中的肥胖时间。

Stata 15.0中用于拟合参数生存模型的新stintreg命令考虑了所有类型的删失。它可以分析当前状态的数据,在这些数据中,所关心的事件只在观察到的时间之前或之后发生。它可以分析包括所有类型删失的数据。

9.非线性混合效应模型(9)

Stata现在适用于非线性混合效应模型,也被称为非线性多级模型和非线性分层模型。可以从两方面考虑这些模型。用户可以把它们看成包含随机效应的非线性模型,或者线性混合效应模型其中一些或所有的固定效应和随机效应都是非线性的。无论用户怎么想,总的误差分布都是高斯分布。

这些模型之所以流行,是因为它们所在领域的科学认为有些问题的参数不是线性的。这些模型在人群药代动力学、生物测定以及生物和农业生长过程的研究中很流行。例如,非线性混合效应模型已经被用来模拟药物在体内的吸收、地震的强度和植物的生长。

Stata 15.0中新的评估命令是menl。它实现了在实际应用中很流行的Lindstrom-Bates算法。该算法是基于非线性平均函数对固定和随机效应的线性化,支持极大似然估计和有限极大似然估计两种方法。

10.选择性混合logit回归(10)

Stata已经拟合多项Logit模型。Stata 15.0能使它们拟合混合形式,包括随机系数。有很多方法可以表示替代特定的混合logit回归。其中3个是:

  •  混合多项式logit模型
  •  混合离散选择模型
  •  随机系数离散选择模型

Stata以前适合多项式模型。新的是混合随机系数部分。混合的意思是随机系数。

随机系数对于拟合这些模型的人特别有意义,因为它们是一种绕过多项模型的IIA假设的方法。IIA代表“无关选择的独立性”。如果用户要在步行、公共交通或汽车之间做出选择,而用户选择步行,那么一旦用户做出了选择,其他选择应该是无关紧要的。如果我们拿走另一种选择,用户还是会选择步行,是吗?也许不是。人类有时会违反IIA的假设。

从数学上讲,在协变条件作用后,IIA使可选项独立。如果违反了IIA,那么替代方案将是相关的。随机系数允许选择项相互关联。

混合logit模型常用于随机效用模型和离散选择分析。

Stata 15.0中的新asmixlogit命令支持各种随机系数分布,并方便地允许包含特定大小写的变量。

11.非参数回归(11)

与线性回归一样,非参数回归估计给定协变量集的平均结果。与线性回归不同,非参数回归对结果和协变量之间的函数形式是不可知的,因此不受错误说明的影响。

在非参数回归中,不指定函数形式。用户指定因变量、结果和协变量。用户指定yx1、x2、x3满足:

y = g(x1,x2,x3)+∈

该方法不假设g( )是线性的。也可能是这样的:

??????y=b1x1+ b2x22+ b3x13 x2+ b4x3+∈

该方法甚至没有假设函数在参数中是线性的。也可能是这样的:

??????y=b1x1 b2+ cos(x2x3)+∈

也可以是其他的。

结果不会以代数形式返回给用户,但是可以计算预测值和导数。为了适应任何模型,用户输入:

     . npregress kernel y x1 x2 x3

当然,与线性回归相比,Stata 15.0中的npregress需要更多地观察数据来产生一致的估计,但可能没有用户预期的那么多。像这样的模型可以很容易地适用于500次观察。

12.贝叶斯多级模型(12)

多级模型是包含组特异性效应的回归模型。组可以表示不同层次的层次结构,例如医院、嵌套在医院中的医生和嵌套在医院中的医生中的患者。根据某种先验分布(通常是正态分布),假设群体特异性效应在群体间随机变化。这一假设使得多层模型成为贝叶斯分析的自然候选模型。此外,贝叶斯多层模型还假设回归系数和方差分量(群体特异性效应的方差)等其他模型参数也是随机的。

为什么使用贝叶斯多层模型?除了贝叶斯分析的标准原因外,贝叶斯多层建模通常用于组数较少或存在许多层次结构的情况。贝叶斯信息准则(如偏差信息准则,DIC)是比较多层模型的常用方法。当群体间的比较是主要的兴趣时,贝叶斯多层建模可以提供群体特异性效应的整体分布。

现在用户可以在Stata 15.0中使用贝叶斯多级模型,并且用户可以很容易地做到这一点,只需在多级命令前面加上贝叶斯:

     . bayes: mixed y x1 x2 || id:

当然,当我们说“容易”时,指的是模型规范“容易”,而不是模型公式“容易”。与其他建模任务一样,贝叶斯多层建模的公式需要仔细考虑。

贝叶斯多层建模支持连续、截尾、二进制、序数、计数、GLM和生存结果,用户可参见支持的多级命令的完整列表,如表1.3所示。所有多级特性,如多级层次结构、嵌套和交叉随机效应、随机截取和系数以及随机效应协方差结构都是可用的。当用户在多级命令中使用BAYES前缀时,[BAYES] bayesmh命令提供的所有BAYES特性都受到支持。

表1.3 支持的多级命令的完整列表

(续表)

13.门限回归模型(13)

门限又称阈值,将一种状态与另一种状态区分开来。有一个效应(一组系数)达到阈值,另一个效应(另一组系数)低于阈值。

Stata的新阈值命令适合阈值模型。

阈值模型通常应用于时间序列数据。阈值可以是一个时间。例如,如果用户认为投资策略在某个未知日期发生了变化,那么用户可以对一个模型进行拟合,以获得该日期的估计值,并获得该日期前后不同系数的估计值。

阈值也可以用另一个变量表示。例如,超过一定水平的通货膨胀,央行就会提高利率。用户可以对模型进行拟合,以获得阈值及其两侧系数的估计值。

Stata官网上提供的案例是,一个虚构的城市的市长想要减少城市公共汽车造成的空气污染。他们有旧公共汽车和新公共汽车。旧公共汽车的污染更多。他们正在用新公共汽车替换旧公共汽车,但这需要一段时间。与此同时,市长想知道是否可以通过在一天中产生污染最少的时段使用旧公共汽车来减少污染。

她已委托顾问调查此事。她的顾问将污染物浓度建模为旧公共汽车、新公共汽车和路上汽车数量的函数。他们允许这些数字的影响随时间而变化,符合阈值模型。他们输入:

     . threshold pollution, threshvar(hour) regionvars(oldbusnewbus car)

此命令适用于regionvars( )上的污染模型,即旧总线、新总线和car。

变量oldbus、newbus和car包含路上车辆的数量和变量。

pollution包括测量的污染。

threshvar(hour)是输入内容的重要部分,它指示阈值查找regionvars( )上的系数发生变化的时间。

14.具有随机系数和截断的面板数据tobit模型(14)

具有随机效果的面板数据模型可以使用Stata 15.0的me命令进行多级建模。新的metobit命令可以使面板数据tobit模型适合经过审查的结果。例如,如果y左截尾数为10,那么可以输入:

     . metobit y x1 x2, ll(10) || id:

使用id随机截取来匹配模型。实际上,用户可以使用现有的xttobit命令来匹配该模型。

使用xttobit不能做的是允许斜率根据id变化。使用metobit时,除了输入随机截取的数据外,还包括x1的随机斜率

     . metobit y x1 x2, ll(10) || id: x1

用户可以在Stata 15.0的多级tobit模型中了解更多关于metobit的信息。

15.轻松导入美联储经济数据(15)

圣路易斯联邦储备局向注册用户提供超过47万的美国和国际经济和金融时间序列。注册是免费的并且很容易做,这项服务叫FRED。它包括来自84个来源的数据,包括美联储、宾州世界表、欧统局和世界银行。

Stata 15.0中,用户可以使用Stata的GUI来访问和下载FRED数据。可以按类别、发布或来源进行搜索或浏览和下载,当用户单击“下载”时,Stata将下载它们并将它们合并到一个内存的单个自定义数据集中。

Stata命令行界面也提供了这些相同的功能,命令是import fred。

Stata还可以访问FRED和ALFRED。ALFRED是FRED的历史档案数据。

16.多级混合效应区间回归(16)

Stata 15.0新的meintreg命令适用于这样的模型:结果是间隔测量(间隔审查)的,并且观察结果是集群的。

时间间隔测量意味着,不是结果(y)被精确观察到,而是结果(y)被部分或全部观测到yl≤ y ≤yu区间中。也可以观察删失数据,包括向左删失left-censored(y≤yl)或向右删失right-censored(y≥yu)。间隔测量的结果可能是收入,记录在收入等级中,或者每周锻炼的分钟,记录为少于30分钟、31~59分钟、60~89分钟等。

多级混合效应是指拟合模型考虑了聚类问题,例如人们住得很近、学生上同一所学校、学生被反复测试等。

17.面板数据协整检验(17)

研究人员在时间序列非平稳时可以选择进行协整检验,以确定它们是否具有稳定的长期关系。Stata 15.0新的xtcointtest命令实现了对包含许多长面板的数据的各种测试,称为large-N-large-T。比如一长串针对大量购买者的超市购物数据,或者某网站的订阅者对该网站的多次访问数据。

当时间序列具有随时间变化的均值或方差时,称为非平稳时间序列。如果用户首先对它们进行差分,就会使得一些非平稳的时间序列变得平稳。非平稳时间序列容易漂移。协整表示它们在一起游荡,意味着级数之间存在长期均衡关系。在Stata 15中,我们现在可以使用xtcointtest命令测试协集成。xtcointtest测试是否存在这种长期的协集成关系。有3种测试可用:Kao、Pedroni和Westerlund。

18.参数稳定性累积和检验(18)

当用户拟合一个时间序列回归时,通常假设系数是稳定的。Stata 15.0新的estatsbcusum命令可以用来验证这一假设。它的结果是基于时间序列是否以模型没有预测到的方式突然变化。更严格地说,它测试残差中的结构断裂。

estatsbcusum使用递归残差的累加和或OLS残差的累加和来确定是否存在结构中断。零假设下,残差的累加和均值为零。

该命令还用置信区间绘制累积和图,这允许用户查看该序列的行为是否如零假设所预测的那样。

19.多组广义结构方程模型(SEM)(19)

在Stata 15.0中,广义结构方程模型(SEM)命令现在可以方便地对包含组的数据进行模型拟合。

有了gsem的新特性,用户可以执行验证性因素分析(CFA),并允许男性和女性之间的差异,通过输入:

新的语法特性是group( )和ginvariant( )选项。它们一起工作。

假设用户想要匹配路径模型,例如:

     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2)

如果用户希望拟合相同的模型,但是在变量子集为1、2和3所标识的数据中,为每3组分别获得参数估计值,那么用户可以将模型拟合3次:

     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2) if subset==1
     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2) if subset==2
     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2) if subset==3

但是用户不能比较拟合的参数或者限制一些参数在组间是相等的。

在Stata 15中,用户可以输入:

     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2),
          group(subset) ginvariant(none)

用户可以为每个组指定一个单独的模型:

     . gsem (1: y1 <- y2 x1,   poisson) (1: y2 <- x1 x2   )
          (2: y1 <- y2 x1 x3, poisson) (2: y2 <- x1 x2   )
          (3: y1 <- y2 x1,   poisson) (3: y2 <- x1 x2 x4),
          group(subset) ginvariant(none)

ginvariant( )选项指定在组之间将哪些拟合参数约束为相等。gsem配合的参数类型如图1.13所示。

图1.13 gsem配合的参数类型

因此,如果用户输入:

     . gsem (y1 <- y2 x1, poisson) (y2 <- x1 x2),
          group(subset) ginvariant(cons)

只有常数项被限制在组之间是相等的。

20.线性回归的幂分析(20)

Stata的power命令执行power和sample-size分析(PSS)。它的特点现在包括用于线性回归的PSS。

与所有其他power方法一样,新方法允许指定多个参数值,并自动生成表格和图形结果。

Stata 15.0中的power命令为线性回归提供了3种新的PSS方法。

power oneslope对简单线性回归中的斜率测试执行PSS。在给定其他两个和其他研究参数的情况下,它计算其中一个样本大小、幂或目标斜率。

power rsquared对多元线性回归中的R2测试执行PSS。R2检验是决定系数(R2)的F检验。该检验可以用来检验所有系数的显著性,也可以用来检验其中的一个子集。在这两种情况下,在给定其他两个和其他研究参数的情况下,power rsquared计算样本容量、幂或目标R2中的一个。

power pcorr在多元线性回归中执行偏相关检验的PSS。偏相关检验是平方偏多相关系数的F检验。该命令计算给定其他两个和其他研究参数的样本大小、幂或目标平方部分相关系数中的一个。

21.Heteroskedastic线性回归(21)

当我们使用普通最小二乘(回归)拟合模型时,假设残差的方差是常数。若它不是常数,则regress报告有偏差的标准错误,从而导致不正确的推论。在Stata 15.0中,hetregress让用户处理异质性回归,允许用户对异方差建模,其中方差是协变量的指数函数。

如果正确地指定了方差模型,那么将方差建模为指数函数还可以产生更有效的参数估计。

hetregress对方差进行了两种估计:最大似然(ML)估计和两步GLS估计。如果正确地指定了均值和方差函数,并且误差是正态分布的,那么ML估计比GLS估计更有效。如果方差函数不正确或误差不正常,那么两步GLS估计更可靠。

22.具有样本选择的泊松模型(22)

在统计学中,泊松回归通常被用于计算结果的模型,如XX公司获得专利的数量、人们去看医生的次数、不幸的普鲁士士兵被马踢死的次数等。

通过观察数据,我们并不总是能够看到所有受试者的结果。当然这完全不同于零事件的观测:我们对结果一无所知。为什么?调查nonresponse(无回应)。与高调的专利申请相比,被调查的企业可能更喜欢保守自身商业秘密。我们期望可能会观察到的结果和我们实际没有观察到的结果是不同的。这种缺失被称为样本选择,或者更准确地说,内生样本选择,它也被称为失踪非随机(MNAR)。

Stata 15.0中新的命令heckpoisson适用于计算数据的模型并生成估计,就像没有进行样本选择一样。也就是说,这个新命令符合让用户对整个群体做出推断的模型,而不仅仅是那些被观察到的。