
2.1.1 数据的可变性
以美国国家公路交通安全管理局发布的公路交通事故数据为例,来了解数据的可变性。
例如,从2001年到2010年,根据美国国家公路交通安全管理局发布的数据,全美共发生了363839起致命的公路交通事故。这个总数代表着那部分逝去的生命,如图2-3所示,把所有注意力放在这个数字上,能让人们深思,甚至反省自己的一生。
然而,除了安全驾驶之外,从这个数据中还学到什么呢?由于所提供的数据具体到了每一起事故及其发生的时间和地点,人们可以从中了解到更多的信息。
如果在地图中画出2001年至2010年间全美国发生的每一起致命的交通事故,用一个点代表一起事故,就可以看到事故多集中发生在大城市和高速公路主干道上,而人烟稀少的地方和道路几乎没有事故发生过。此外,这幅图除了告诉人们对交通事故不能掉以轻心之外,还告诉人们关于美国公路网络的情况。
观察这些年里发生的交通事故,人们会把关注焦点切换到这些具体的事故上。图2-4显示了每年发生的交通事故总数,所表达的内容与简单告知一个总数完全不同。虽然每年仍会发生成千上万起交通事故,但通过观察可以看到,2006年到2010年间事故显著呈下降趋势。

图2-3 2001年至2010年全美公路致命交通事故总数

图2-4 每年的致命交通事故数
从图2-5中可以看出,交通事故发生的季节性周期很明显。夏季是事故多发期,因为此时外出旅游的人较多。而在冬季,开车出门旅行的人相对较少,事故就会少很多。每年都是如此。同时,还可以看到2006年到2010年呈下降趋势。

图2-5 月度致命交通事故数
如果比较那些年的具体月份,还有一些变化。例如,在2001年,8月份的事故最多,9月份相对回落。从2002年到2004年每年都是这样。从2005年到2007年,每年7月份的事故最多。从2008年到2010年又变成了8月份。另一方面,因为每年2月份的天数最少,事故数也就最少,只有2008年例外。因此,这里存在不同季节的变化和季节内的变化。
还可以更加详细地观察每日的交通事故数,例如看出高峰和低谷模式,可以看出周循环周期,(就是周末比周中事故多),以及每周的高峰日在周五、周六和周日间的波动。可以继续增加数据的粒度,即观察每小时的数据。
重要的是,查看这些数据比查看平均数、中位数和总数更有价值,测量值只告诉人们一小部分信息。大多时候,总数或数值只是告诉人们分布的中间在哪里,而未能显示出应该关注的细节。