统计学图鉴
上QQ阅读APP看书,第一时间看更新

第 1 章 描述统计学

1.1 各种平均数 

平均数表示一组数据的中心数值。

算术平均数

的算术平均数的计算公式如下所示。 是变量, 是数据个数。

下图显示了一年中每个月的电费数据。我们可以通过求算术平均数来了解平均每月电费是多少。

算术平均数(arithmetic mean)…数据总和除以数据个数所得到的结果,易受离群值的影响。又称算术平均值

几何平均数

几何平均数的计算公式如下所示。

几何平均数适用于计算年增长率和同比值等数值的平均数。

调和平均数

调和平均数的计算公式如下所示。

我们在计算移动某段距离的平均速度时可以使用调和平均数。

几何平均数(geometric mean)…用于计算增长率或平均利率。几何平均数又叫几何平均值

调和平均数(harmonic mean)…用于计算平均速度或电阻的平均数。算数平均数≥几何平均数≥调和平均数。

1.2 数据的离散程度①:~分位数和方差~ 

只看平均数并不能得知数据的离散程度。

因此,我们需要使用最大值、最小值、分位数、四分位距和方差(标准差)等指标来掌握数据的离散方式。

分位数

● 将 个按从小到大的顺序排列的数据分为 等份,此时处于分割点的数值就称为分位数

四分位数()比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置,也叫中位数

四分位距

● 四分位距是第三四分位数与第一四分位数的差。数据越向中位数集中,四分位距就越小。

偏差

偏差是数据的值与平均数的差。如果数据集中有很多偏差(绝对值)较大的数据,我们就可以说该数据集的离散程度很大。

四分位数(quartile)…将数据按从小到大的顺序排列并分成四等份时,位于各个分割点的数值。

中位数(median)…按顺序排列的一组数据中位于正中间的数。不易受离群值的影响。

方差

偏差表示的是每个数据与平均数的差,而方差是衡量离散程度的指标。方差的计算公式如下页所示。

公式右边的第一项是偏差的平方和。方差的算术平方根叫作标准差)。

离群值

大幅偏离平均数的值称为离群值

方差(variance)…用于衡量数据在平均数周围的离散程度。方差是偏差平方和的平均数。

标准差(standard deviation)…方差的算术平方根。标准差的单位与数据的单位相同,便于计算。

1.3 数据的离散程度②:~变异系数~ 

变异系数

● 用于比较两个数据的离散程度。

变异系数的计算公式如下所示。

哪一种肉的价格变动较大呢?

牛肉价格的标准差更大,但二者的变异系数是一样的。由此我们可以知道,牛肉价格和猪肉价格的离散程度相同。

变异系数(coefficient of variation)…标准差与平均数的比。用于比较单位不同的样本之间的离散程度。

 如何使用次数分布表来计算平均数和方差

当数据以次数分布表(下表)的形式给出时,我们可以使用“组代表值”(组中数值的中位数)来计算平均数和方差的近似值。

 

专栏 伟人传①

当今的描述统计学是由卡尔 • 皮尔逊发扬光大的。1857 年,皮尔逊出生于英国伦敦的一个律师之家。他从小体弱多病。进入大学后,潜心研究数学,毕业后又前往德国学习物理学。留学期间,皮尔逊对文学、法学和社会主义理论产生了兴趣。据说,他把自己的名字由 Carl 改成了 Karl,就是受到了当时著名的经济学家卡尔 • 马克思(Karl Marx)的影响。1880 年回国后,他继续学习法学,但不久之后又回到了数学领域,先后在伦敦的多所大学担任应用数学教授。

将应用数学家皮尔逊领入统计学世界的是他的大学同事——动物学家瓦尔特 • 弗兰克 • 拉斐尔 • 韦尔登(Walter Frank Raphael Weldon)。韦尔登受到弗朗西斯 • 高尔顿(Francis Galton)的影响,打算利用统计来弄清生物演化的机制。于是他请擅长数学的皮尔逊来协助研究。就这样,皮尔逊与韦尔登一起尝试使用统计方法来解决遗传和演化的问题。在这个过程中,他们提出了许多近代统计学中必不可少的概念和方法。这些研究也得到了认可。1911 年高尔顿去世,皮尔逊作为接班人,成为伦敦大学学院优生学系的第一任教授,创立了世界上第一个(应用)统计学系。

在皮尔逊的诸多成就中,最重要的成就是创建并发展运用了卡方分布的检验方法。拟合优度检验与本书第 7 章将要介绍的独立性检验基本相同。在拟合优度检验中,皮尔逊提出了将遵循卡方分布的统计量作为衡量观察频数与期望频数之间差异的标准〔不过,卡方分布本身是由测地学家弗里德里希 • 罗伯特 • 赫尔默特(Friedrich Robert Helmert)发现的〕。除了整理出第一张完整的统计表,皮尔逊还提出了一个参数估计方法——矩估计。

因费歇尔和皮尔逊的儿子埃贡 • 皮尔逊(Egon Pearson)等人提倡的推断统计学登上历史舞台,皮尔逊在晚年的存在感较弱,但近几年他的著作《科学的规范》1 在世界范围内再次受到关注。该书是一本科学哲学书,主张“如果把科学比作语言,那么统计学就是对语言来说必不可少的语法”。据说爱因斯坦和夏目漱石也受到了这本书的影响。

1原书名为 The Grammar of Science,中文版由商务印书馆于 2012 年出版。——译者注

1.4 变量的关联性①:~相关系数~ 

我们把两个变量(如广告费和销售额,气温和收成,玩游戏的时间和成绩等)之间存在的“一个变量增大,另一个变量也会增大”“一个变量增大,另一个变量会减小”这种线性关系称为相关。

皮尔逊积矩相关系数

● 表示相关程度的指标,其值在 -1 和 1 之间。

变量 和变量 相关系数的计算公式如下所示。

越接近 1,正相关的程度就越高(一个变量增大,另一个变量也会增大;一个变量减小,另一个变量也会减小),散布图上的点由左下朝右上分布。

相反, 越接近 -1,负相关的程度就越高(一个变量增大,另一个变量就会减小;一个变量减小,另一个变量就会增大),散布图上的点由左上朝右下分布。

接近 0 表示没有关系(不相关),散布图上的点呈圆形分布。

相关系数(coefficient of correlation)…表示两个变量之间的关联(相关)程度的指标。相关系数越接近 1,正相关就越强;越接近 -1,负相关就越强;0 表示不相关。

专栏 伟人传②

将相关系数确定下来的人是皮尔逊,但最先想到这个概念的人是他的师父——优生学家高尔顿。

1822 年,高尔顿出生于英国伯明翰一个富裕的银行家庭。虽然他遵从父亲的意见进入医学院学习,但后来还是去了剑桥大学学习数学。大学毕业时,高尔顿的父亲过世了。自此之后,他便经常去非洲探险,接触不同人种,这让他走上了优生学的道路。

1875 年,高尔顿试图证明人类的身高与遗传有关,进而为优生学提供佐证。他首先使用易于收集数据的香豌豆来调查种子的重量是否会遗传。与预想的一样,比较重的香豌豆种子在成长后结出的种子也比较重。不过,他发现了另一个非常有趣的现象—与父代相比,子代的重量离散程度较小。高尔顿认为,生物的性状之所以没有出现极端变化,是因为各代逐渐趋向于祖先的平均类型。这种现象称为“回归”。通过在英国对大量父母和子女的身高进行调查,高尔顿确认该现象也会发生在人类身上。为了衡量父母和子女间身高的相关程度,他提出了相关系数。

高尔顿留下许多著作。他还提出了四分位距、中位数,以及预测天气时需要用到的多元回归分析的基本思路。另外,在使用指纹搜查罪犯方面,高尔顿也做出了贡献。他是一名多产、多才的科学家。晚年,以和远亲弗洛伦斯 • 南丁格尔(Florence Nightingale)的一次谈话为契机,他在大学设立了统计学专业。诸如此类,高尔顿的一生对近代统计学做出了巨大贡献。1911 年,高尔顿病逝,享年 89 岁。

1.5 变量的关联性②:~等级相关~ 

在只能使用定序数据或者两个变量之间非线性相关(散布图呈曲线形状)时,需要用到等级相关系数。

斯皮尔曼等级相关系数

● 对定序数据进行计算的皮尔逊积矩相关系数就是斯皮尔曼等级相关系数

如果数据是连续变量(变量值连续),要先将其转换为定序数据。

肯德尔等级相关系数

● 肯德尔等级相关系数着眼于 的等级和 的等级是否一致,用于衡量它们的相关程度。

关于消费者 1 的定序数据 与消费者 2 的定序数据 ,判断如下。

①当 ,或者 时→等级一致

②当 ,或者 时→等级不一致

等级相关系数(coefficient of rank correlation)…测量两个定序变量之间相关程度的指标。等级相关系数中有斯皮尔曼等级相关系数和肯德尔等级相关系数。具体使用哪一个,没有明确的基准。

关于 3 位消费者的定序数据,“等级一致”时标记为○,“等级不一致”时标记为×。

=○ 的个数, =× 的个数, =数据对的个数(该示例中为 4)时,肯德尔等级相关系数的计算公式如下所示。存在相同等级时,计算公式不同。

 关于组合数

● 将 A、B、C、D 两两组合,可得到 (A, B)(A, C)(A, D)(B, C)(B, D)(C, D) 这 6 种组合方式。这时,(A, B) 与(B, A) 是相同的。

● 在 A、B、C、D、E 的情况下,组合方式有 10 种,分别为 (A, B)(A, C)(A, D)(A, E)(B, C)(B, D)(B, E)(C, D)(C, E)(D, E)。

● 通常,从 个元素中取出 2 个元素的组合数可通过公式 求出。另外,从 个元素中取出 个元素的组合数的计算公式是 。〔 表示 的阶乘,计算公式为 。〕

组合(combination)… 个不同的元素中取出 个元素的方法。