
1.1 数据科学的基本概念
随着计算机技术的发展和有用数据的快速增多,数据科学应运而生。数据科学的总体目标是在已有数据集的基础上,通过特定的算法提取信息,并将其转化为可理解的知识以辅助做决策。
例如,北京****信用管理有限公司是一家典型的数据公司,有两个主要业务:第一个是为会员机构提供数据加工服务,第二个是提供反欺诈与信用风险管理的产品和咨询服务。第一个业务的主要工作内容是为会员机构清洗数据,并提供数据存储与管理服务。按照经济学的观点,这类业务的附加价值极低,只能获得社会一般劳动报酬。第二个业务属于增值服务,数据科学工作者将数据与金融借贷的业务知识相结合,为会员机构提供风控方面的咨询服务。这类业务的边际报酬在客户量达到一定阈值之后是递增的,即一元的投入会获得高于一元的产出,可以为企业高筑商业的安全边际。从这家公司的业务中可以看出,数据是基础,数据科学是研发,不做研发的企业只能成为代工厂。
数据科学的工作范式见图1-1,以后我们的工作都是在重复这些步骤。

图1-1 数据科学的工作范式
我们再来看一个例子。有一个淘宝商家希望通过促销的方式激活沉默客户。这里的“决策和行动”就是向一些客户发放打折券。打折券不应该是随意发放的,比如黏性很高的客户没有打折券也会持续购买。为了明确应该向哪些客户发放打折券,商家需要了解关于客户的三个知识:客户的流失可能性、客户价值、客户对打折券的兴趣。这些关于客户的知识往往被称为客户标签[1]。根据获取标签的难度,客户标签可以分为基础、统计、模型三种。基础标签可以从原始数据直接获取,比如性别、年龄段、职业,可以供决策者使用,等价于信息和数据。统计标签是通过原始数据汇总得到的,比如获得客户的价值标签需要将客户过去一段时间内在企业的所有消费进行汇总,并扣除消耗的成本。统计标签通过对原始数据进行简单的描述性统计分析获得。模型标签比较复杂,是在基础标签、统计标签和已有的模型标签的基础上,通过构建数据挖掘模型得到的,比如客户的流失概率、违约概率的标签。具体到本例,客户的流失可能性、客户价值、客户对打折券的兴趣这三个标签都属于统计标签。表1-1所示是该商家的交易流水表,记录了每位客户每笔交易的时间、金额和交易类型。从这些交易流水数据中获取信息的最简单而通用的方法被称为RFM模型。
表1-1 淘宝商家的交易流水

图1-2是根据表1-1的数据所做的RFM模型。RFM模型将每个信息进行二次分类,得到客户分群。R(最后一次消费时间)标签可以代表客户的流失可能性,离最后一次消费时间越久的客户的流失可能性越高。M(一段时期内消费的总金额或平均金额)标签可以代表客户的价值,消费额高的客户的价值高,因此可以初步确定重要保持和重要挽留客户都属于应该营销的客户。最后一个标签F(一段时期内消费的频次)代表客户对打折券的兴趣。直接使用RFM模型是不能满足要求的,我们可以按照交易类型,计算每个客户所有交易类型中购买特价产品的F(一段时期内消费的频次)或M的占比。这里有人会开始纠结,两个标签该选哪个呢?其实,“对打折券的兴趣”是一个概念,我们可以用多种方法得到不同的标签来表示这个概念。如果你追求完美,可以使用后续章节中讲的主成分方法进行指标合成。

图1-2 RFM模型示例
经过以上数据分析,我们终于可以进行有针对性的折扣券营销了。细心的读者可以发现,数据分析是按照图1-1所示的工作范式从右至左规划和分析、从左至右实际操作的。本案例比较简单,数据量不大,使用Excel进行数据分析即可。
不过,当一个企业的年销售额达到几十亿元,活跃客户量达到几十万时,其就必须聘请专业的数据科学工作者,使用复杂的算法和专业的分析工具了。
与数据科学相关的知识涉及多个学科和领域,包括统计学、数据挖掘、模式识别、人工智能(机器学习)、数据库等,如图1-3所示。数据科学的算法来源比较复杂,所以同一概念在不同领域的称呼不一样。为了便于本书读者将来与不同领域的专家沟通,我们力争列出出现的术语在不同领域对应的称呼。

图1-3 数据科学知识领域
数据库:数据是数据科学的基础,任何数据分析都离不开数据。如今信息化建设日趋完善,数据库作为存储数据的工具,被数据分析人员广泛使用。Python和R之类的工具都是内存计算,难以处理太大的数据。因此在对数据库中的数据进行分析前,数据分析师需要借助Oracle之类的数据库工具得到待分析的数据,并在数据库内进行适当的清洗和转换。即使在大数据平台上做数据分析,大量的数据也是在Hive或Impala中处理后才被导入Spark进行建模。
统计学:统计学一直被认为是针对小数据的数据分析方法,不过其仍旧在数据科学领域担任重要的角色,比如对数据进行抽样、描述性分析、结果检验等。目前商业智能中的数据可视化技术绝大多数使用的是统计学中的描述性分析。而变量降维、客户分群主要还是采用多元统计学中的主成分分析和聚类算法。
人工智能/机器学习/模式识别:一些数据科学方法起源于早期科技人员对计算机人工智能的研究,比如神经网络算法是模仿人类神经系统运作的,不仅可以通过训练数据进行学习,而且能根据学习的结果对未知的数据进行预测。
很多人视数学为进入数据科学的拦路虎,这是完全没有必要的。在一开始接触数据科学时,我们完全可以从业务需求出发,以最简单的方法完成工作任务。