首页 > 个性签名 正文
【留言代码】数据分析小白的福音,可以用三行代码生成数据分析报告。

时间:2023-03-03 20:06:12 阅读: 评论: 作者:佚名

今天介绍Python作为数据分析库,可以使用三行代码生成完整的数据分析报告。过程中不需要额外的代码,零基础也能学到的方法是不是很神奇?下面一起学习吧~

本节中使用的库是执行可扩展数据浏览分析的pandas_profiling库,只需三行代码即可生成交互式HTML报告,只需几步即可轻松执行数据浏览分析。

导入数据

在本节中,您将导入seaborn中包含的数据集,首先查看seaborn中包含的数据集类型。

# seaborn查看唯一数据集的类型

Import seaborn as SNS

()下面seaborn包含的数据集有20多种,作者将其下载到本地存储中。

['anagrams '' ansco MBE '' attention '' brain _ networks '' car _ crashes '' diamon '

Fmri、“geyser”、“glue”、“health exp”、“iris”、“mpg”、“penguins”、“planets”

Import pandas as PD

Df=(r'C:/Users/上川江/桌面/七个数据集;)。

Df.head() 首先使用df.describe()函数执行数据导航分析,以获得平均值、中值、中位数、象限等值。

继Df.describe() 之后,您可以使用df.info()查看每个字段的数据类型、数据缺失值等。

Df.info() 数据导航分析

另一方面,使用pandas_profiling库,完成上述数据检索分析只需要3行代码,还具有数据的关联分析、级别映射等功能。anaconda不包含pandas_profiling库,因此必须在命令行中输入以下代码进行下载:

#pip install pandas_profiling

pip install pandas _ profiling-ignore-installed py YAML-I您可以使用以下简单的三行代码生成数据分析报告:

from pandas _ profiling import profile report

Profile=profilereport (df,title='泰坦尼克号')

(r'C:\Users\上川江\Desktop\泰坦尼克号数据分析报告。“html”)

Kw%3D&index=3" width="640" height="472"/>

具体的由分析报告可以看出报告大体由五部分组成,分别是数据集的基本信息、数据类型的分布情况、相关性分析可视化、缺失值数据可视化、样本信息展示。

1、数据集的基本信息:包含数据类型、变量数(列)、观察数(行)、数据缺失率、内存信息。

2、数据类型的分布情况:每个变量的详细情况,包括数据类型,分位数统计值、描述性统计值等,这个板块包含的信息最多。

3、相关性分析可视化:突出强相关的变量,使用散点图来可视化数据变量之间的关系。

同样还有Spearman,Pearson矩阵相关性色阶图,也用来可视化数据变量之间的关系。

4、缺失值数据可视化:对于各个字段的缺失值进行分析,这里也考验我们对于缺失值如何具体处理,因为缺失值会影响我们的结果分析,如果说一个字段的缺失比例大于30%,该字段应废弃处理。

5、样本信息展示:突出展示一些样本信息,这里展示前10行数据信息,类似于df.head()的功能,对数据做一个预览。

发现重复行,可以将重复的那一行标记出来。

以上就是三行代码生成数据分析报告的全部内容,感兴趣就敲代码试试吧,如有问题可以评论区留言,每天学习一点代码知识~

三年互联网数据分析经验,擅长Excel、SQL、Python、PowerBI数据处理工具,数据可视化、商业数据分析技能,统计学、机器学习知识,持续创作数据分析内容,点赞关注,不迷路。

  • 评论列表

发表评论: