Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习数据自动化分析神器-dataprep

机器学习数据自动化分析神器-dataprep

原创
作者头像
皮大大
发布于 2023-04-08 08:02:02
发布于 2023-04-08 08:02:02
77100
代码可运行
举报
运行总次数:0
代码可运行

机器学习数据自动化分析神器-dataprep

公众号:尤而小屋 作者:Peter 编辑:Peter

大家好,我是Peter~

dataprep是一个开源的Python第三方库,有助于数据科学者、数据分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

在本文中小编给大家详细介绍dataprep库的使用。

官网地址:https://dataprep.ai/

GitHub地址:https://github.com/sfu-db/dataprep

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)
  • 本地数据集
代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

查看数据的基本信息:

In 3:

代码语言:txt
AI代码解释
复制
df.shape

Out3:

代码语言:txt
AI代码解释
复制
(891, 12)

In 4:

代码语言:txt
AI代码解释
复制
df.isnull().sum()

Out4:

代码语言:txt
AI代码解释
复制
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In 5:

代码语言:txt
AI代码解释
复制
df.dtypes

Out5:

代码语言:txt
AI代码解释
复制
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In 6:

代码语言:txt
AI代码解释
复制
plot(df)

指定单个字段分析

In 7:

代码语言:txt
AI代码解释
复制
plot(df, "Age")

直接指定Age字段:

指定多个字段分析

In 8:

代码语言:txt
AI代码解释
复制
plot(df, "Age","Embarked")

查看两个字段之间的分析:

相关系数

In 9:

代码语言:txt
AI代码解释
复制
plot_correlation(df)  # 相关系数

查看字段的3种相关系数:

缺失值

In 10:

代码语言:txt
AI代码解释
复制
plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

分析报告

In 11:

代码语言:txt
AI代码解释
复制
create_report(df).show()  # 报告

返回的数据的整体分析报告(整个图):

![](https://p.ipic.vip/ay

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于Titanic数据集的完整数据分析
本文是一个极度适合入门数据分析的案例,采用的是经典数据集:泰坦尼克数据集(train部分),主要内容包含:
皮大大
2023/05/05
1.4K0
机器学习入门数据集--4.泰坦尼克幸存者预测
最后只选取8个维度 Pclass Age SibSp Parch Sex Cabin Fare Embarked。dummy编码进行维度扩展。
birdskyws
2019/03/04
6480
机器学习入门数据集--4.泰坦尼克幸存者预测
经典永不过时的句子_网红的成功案例分析
本周给大家分享的数据分析案例是泰坦尼克号幸存者预测的项目,没记错的话,这应该是很多朋友写在简历上的项目经历。如果你目前正在找工作,自身缺少项目经历并且想要充实项目经历的话,可以考虑一下这个项目!
全栈程序员站长
2022/11/01
8850
Python骚操作:一行代码实现探索性数据分析
在使用数据前,我们首先要做的是观察数据,包括查看数据的类型、数据的范围、数据的分布等。dataprep.eda是个非常不错的工具,它可以帮你快速生成数据概览。dataprep.eda包含的一些智能特性:
Ai学习的老章
2020/08/30
1.5K0
机器学习(二) 如何做到Kaggle排名前2%
摘要 本文详述了如何通过数据预览,探索式数据分析,缺失数据填补,删除关联特征以及派生新特征等方法,在Kaggle的Titanic幸存预测这一分类问题竞赛中获得前2%排名的具体方法。 竞赛内容介绍 Titanic幸存预测是Kaggle上参赛人数最多的竞赛之一。它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存,并预测出测试数据集中的所有乘客是否生还。 该项目是一个二元分类问题 如何取得排名前2%的成绩 加载数据 在加载数据之前,先通过如下代码加载之后会用到的所有R库 1234567891011121
Jason Guo
2018/06/20
1.1K0
kaggle-1-Titanic
kaggle上的Titanic数据处理、特征工程,建模等 中位数填充缺失值 特征工程处理 建模过程 导入相关库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns sns.set() # setting seaborn default for plots train = pd.read_csv("/Users/peter/data-
皮大大
2021/03/02
1.1K0
Kaggle Titanic 生存预测比赛超完整笔记(上)
一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。 总的来说收获还算是挺大的吧。本来想的是只简单的做一下,在整个进行的过程中发现有很多好的Kernels以及数据分析的流程和方法,但是却鲜有比较清晰直观的流程和较为全面的分析方法。所以,本着自己强迫症的精神,同时也算对这次小比赛的一些方式方法以及绘图分析技巧做一个较为系统的
AI研习社
2018/03/16
2.9K0
Kaggle Titanic 生存预测比赛超完整笔记(上)
通过一个 kaggle 实例学习解决机器学习问题
本文通过实例介绍了如何利用机器学习算法对数据集进行分类,并采用投票方式集成分类器。首先介绍了数据集的特点,然后根据数据集的特点选择了合适的特征工程方法,接下来介绍了多种分类器,并通过交叉验证和投票的方式确定最佳分类器。最后通过预测结果,实现了对数据集的分类。
杨熹
2017/10/18
2.9K0
通过一个 kaggle 实例学习解决机器学习问题
机器学习之逻辑回归
文中的所有数据集链接:https://pan.baidu.com/s/1TV4RQseo6bVd9xKJdmsNFw
润森
2019/09/17
1K0
机器学习之逻辑回归
泰坦尼克号幸存预测
本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析
py3study
2020/01/20
1.3K0
泰坦尼克号幸存率研究
总第53篇 代码区域 import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt %matplotlib inline#为能够jupyter在线使用matplotlib df=pd.read_csv('C:\\Users\\dell\\Desktop\\titanic_data.csv') df.head(5)#先显示出前5行,观察有哪些数据 数据概况: PassengerId:
张俊红
2018/04/11
7640
泰坦尼克号幸存率研究
机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。
全栈程序员站长
2022/09/27
5650
Kaggle泰坦尼克号船难--逻辑回归预测生存率
(三)需要的库:numpy + pandas + matplotlib + sklearn Win 10安装numpy、pandas、scipy、matplotlib和sklearn Win 10系统matplotlib中文无法显示的解决方案
海天一树
2018/07/25
3.6K0
Kaggle泰坦尼克号船难--逻辑回归预测生存率
python 数据分析超简单入门 : 项目实践篇
刘妍
2017/09/12
6.4K2
python 数据分析超简单入门 : 项目实践篇
Pandas教程
作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一,Pandas库在数据操作、分析和可视化方面非常出色
磐创AI
2020/11/02
3.4K0
Pandas教程
Python数据分析可视化--Titanic
Python数据分析可视化–Titanic 这篇文章主要介绍泰坦尼克幸存者问题的数据处理以及可视乎部分,关于机器学习部分: 机器学习2:KNN决策树探究泰坦尼克号幸存者问题 文章目录 Python数据分析可视化--Titanic 导入数据 数据探索 判断是否存在缺失值 关系探索 仓位和存活率关系 性别和存活率关系 兄弟姐妹和孩子对于存活关系 数据可视化分析 数据预处理 import pandas as pd import seaborn as sns import matplotlib.pyplot
北山啦
2022/11/27
4780
Python数据分析可视化--Titanic
经典中的经典--泰坦尼克号的乘客生存预测
数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础,根据之前接触到的数据挖掘流程,可定义为:数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估,其中数据探索、数据预处理、特征工程针对某一属性同时进行。
数据社
2020/05/25
2.2K0
数据分析入门系列教程-数据清洗
从今天开始,我们再一起来学习数据分析,共同进步! 首先先来进行一个数据清洗的实战,使用比较经典的数据集,泰坦尼克号生存预测数据。
周萝卜
2020/09/27
9580
数据分析入门系列教程-数据清洗
如何用Python分析泰坦尼克号生还率?
1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还。当灾难突然降临时,所有人的生死瞬间成了魔鬼撒旦手中的骰子,一切充满了随机性,究竟什么样的人更容易获得命运之神的垂青?幸存者具有哪些共同特点?让我们一起来用Python探索问题吧!
1480
2019/07/15
8660
如何用Python分析泰坦尼克号生还率?
10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱
探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。
deephub
2022/11/11
7890
10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱
相关推荐
基于Titanic数据集的完整数据分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验