
上QQ阅读APP看书,第一时间看更新
3.5 自动化创建数据探索报告
上文提到了很多数据探索的方法,数据探索是数据分析和模型构建的初始阶段中非常重要的一个过程,因此数据探索是必不可少的,但是数据探索的过程往往非常烦琐。R中有一个包会自动化地进行数据处理及可视化,更加快捷地进行数据探索过程。这个包是DataExplorer,第一次使用需要先下载:

接下来依然以sleep数据集为例,通过DataExplorer创建一个数据探索报告,创建报告的函数是create_report( ),传入需要处理的数据集即可创建报告。

函数运行完之后,文件中会出现report.html,此即sleep数据集的一个数据探索报告,如图3.19所示,当然也可以输出其他格式的报告。
数据探索报告中有6个部分,即基本的统计量、数据结构、缺失值分析、单变量分布、数据相关性分析及主成分分析。基本统计量如图3.20所示。

图3.19 数据探索报告

图3.20 基本统计量
结果显示了数据集的一些基本情况,包括数据维度、数据缺失值情况等。数据相关性分析如图3.21所示。
还有另一种创建报告的情况,即当数据中存在标签时,可以在创建报告的时候指定好数据的标签,这样报告中还会有关于标签的分析,这里以iris为例创建分析报告。报告的结构如图3.22所示。


图3.21 数据相关性分析

图3.22 报告的结构
报告比较长,这里就不详细对其进行展示了。使用Data Explorer创建自动化报告方便、快速,可以让数据分析人员更加专注于分布数据本身所蕴含的信息。