前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习数据自动化分析神器-dataprep

机器学习数据自动化分析神器-dataprep

原创
作者头像
皮大大
发布2023-04-08 16:02:02
6590
发布2023-04-08 16:02:02
举报
文章被收录于专栏:机器学习/数据可视化

机器学习数据自动化分析神器-dataprep

公众号:尤而小屋 作者:Peter 编辑:Peter

大家好,我是Peter~

dataprep是一个开源的Python第三方库,有助于数据科学者、数据分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

在本文中小编给大家详细介绍dataprep库的使用。

官网地址:https://dataprep.ai/

GitHub地址:https://github.com/sfu-db/dataprep

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

代码语言:python
代码运行次数:0
复制
pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

代码语言:python
代码运行次数:0
复制
from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)
  • 本地数据集
代码语言:python
代码运行次数:0
复制
# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

查看数据的基本信息:

In 3:

代码语言:txt
复制
df.shape

Out3:

代码语言:txt
复制
(891, 12)

In 4:

代码语言:txt
复制
df.isnull().sum()

Out4:

代码语言:txt
复制
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In 5:

代码语言:txt
复制
df.dtypes

Out5:

代码语言:txt
复制
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In 6:

代码语言:txt
复制
plot(df)

指定单个字段分析

In 7:

代码语言:txt
复制
plot(df, "Age")

直接指定Age字段:

指定多个字段分析

In 8:

代码语言:txt
复制
plot(df, "Age","Embarked")

查看两个字段之间的分析:

相关系数

In 9:

代码语言:txt
复制
plot_correlation(df)  # 相关系数

查看字段的3种相关系数:

缺失值

In 10:

代码语言:txt
复制
plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

分析报告

In 11:

代码语言:txt
复制
create_report(df).show()  # 报告

返回的数据的整体分析报告(整个图):

![](https://p.ipic.vip/ay

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 机器学习数据自动化分析神器-dataprep
  • 安装
  • 导入库
  • 导入数据
  • 使用dataprep自动化探索
    • 整体数据分析
      • 指定单个字段分析
        • 指定多个字段分析
          • 相关系数
            • 缺失值
              • 分析报告
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档