Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python骚操作:一行代码实现探索性数据分析

Python骚操作:一行代码实现探索性数据分析

作者头像
Ai学习的老章
发布于 2020-08-30 07:33:16
发布于 2020-08-30 07:33:16
1.5K00
代码可运行
举报
运行总次数:0
代码可运行

dataprep.eda

在使用数据前,我们首先要做的是观察数据,包括查看数据的类型、数据的范围、数据的分布等。dataprep.eda是个非常不错的工具,它可以帮你快速生成数据概览。dataprep.eda包含的一些智能特性:

  • 为每个 EDA 任务选择正确的图形来可视化数据
  • 列类型推断(数字型、类别型和日期时间型)
  • 选择合适的时间单位(用户也可以指定)
  • 对数量庞大的类型数据输出清晰的可视化方案(用户也可以指定)

dataprep安装

安装dataprep仅需要执行pip instal dataprep即可,由于依赖比较多,安装过程比较慢,需要耐心等待。

如果报错,多半是权限问题,可以在后面加上--user

实例

为了看到这一点的实际应用,我们将使用一个泰坦尼克数据集,我们从数据集的概述开始:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from dataprep.eda import *
import pandas as pd
train_df = pd.read_csv('titanic/train.csv')
train_df

一行代码实现数据集可视化探索

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plot(train_df)

plot(df)显示每列的分布。对于分类列,它以蓝色显示条形图。对于数字列,它以灰色显示直方图。从图的输出,我们知道:

  • 所有列:有1个标签列和11个特征
  • 分类栏:幸存,PassengerId,Pclass,姓名,性别,票证,出发。
  • 数字列:年龄,SibSp,parch,票价。
  • 缺失值:从图形标题中,我们可以找到3列缺失值。即年龄(19.9%),机舱(77.1%),登机(0.2%)。
  • 标签余额:来自幸存者的分布,我们知道,正面和负面的训练实例并不太平衡。 有38%的数据带有标签Survived = 1。当前,列类型(即分类或数字)基于输入数据框中的列类型。因此,如果某些列类型被错误地标识,则可以在数据框中更改其类型。例如,通过调用df [col] = df [col] .astype(“ object”),可以将col标识为分类列。
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
for col in ['Survived', 'Pclass']:
train_df[col] = train_df[col].astype("object")
plot(train_df
)

要了解缺失值,我们首先调用plot_missing(df)来查看缺失值。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plot_missing(train_df)

顶部是可选的,比如选择spectrum可以更具体的看出缺失情况

选择heatmap可以用热力图形式查看缺失情况

接下来,我们决定如何处理缺失值:如果要删除缺失特征,删除包含缺失值的行还是填充缺失值?我们首先分析它们是否与生存相关。如果它们是相关的,则我们可能不想删除该特征。我们通过调用plot(df,x,y)分析两列之间的相关性。这里就不展示了,大家可以探索一下,代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
for feature in ['Age', 'Cabin', 'Embarked']:
plot(train_df, feature, 'Survived')

现在,我们逐一确定了有用的特征,并删除了无用的特征。虽然每个特征都可用于预测Survived,但是当我们将它们一起考虑时,我们可能不想要相关特征。因此,我们首先进行身份相关的特征。这可以通过简单地调用plot_correlation(df)来完成。

骚操作学到了吗?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
10 个 Python 自动探索性数据分析神库!
这是「进击的Coder」的第 719 篇技术分享 来源:数据 STUDIO “ 阅读本文大概需要 7 分钟。 ” 探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行 EDA 来研究数据集中内在的信息。自动化的 EDA Python 包可以用几行 Python 代码执行 EDA。在本文中整理了 10 个可以自动执行 EDA 并生成有关数据的见解的 Python 包,看看他们都有什么功能,能在多大程度上帮我们自动化解决 EDA 的需求。 DTale
崔庆才
2022/09/13
2K0
10 个 Python 自动探索性数据分析神库!
基于Titanic数据集的完整数据分析
本文是一个极度适合入门数据分析的案例,采用的是经典数据集:泰坦尼克数据集(train部分),主要内容包含:
皮大大
2023/05/05
1.3K0
机器学习数据自动化分析神器-dataprep
dataprep是一个开源的Python第三方库,有助于数据科学者、数据分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。
皮大大
2023/04/08
7270
机器学习数据自动化分析神器-dataprep
使用Dataprep进行自动化的探索性数据分析
数据分析帮助我们识别数据集中的模式,分析不同变量之间的相关性和关联。借助不同的可视化,我们可以确定数据是否试图讲述任何特定的故事。有不同类型的图表和绘图可用于分析和可视化数据。
deephub
2021/08/20
6320
经典永不过时的句子_网红的成功案例分析
本周给大家分享的数据分析案例是泰坦尼克号幸存者预测的项目,没记错的话,这应该是很多朋友写在简历上的项目经历。如果你目前正在找工作,自身缺少项目经历并且想要充实项目经历的话,可以考虑一下这个项目!
全栈程序员站长
2022/11/01
8210
10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱
探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。
deephub
2022/11/11
7140
10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱
Kaggle经典数据分析项目:泰坦尼克号生存预测!
最近有很多读者留言,希望能有一个完整的数据分析项目练手,这几天收集了组织成员们的推荐。其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。如果已经有基础了,推荐:
Datawhale
2020/08/28
2.7K0
Kaggle经典数据分析项目:泰坦尼克号生存预测!
数据的探索性(EDA)分析
这里主要是对读取的数据有一个大致的了解,包括简单了解数据的行列信息,数据的统计特征等
mathor
2020/03/25
1.1K0
数据的探索性(EDA)分析
Python数据分析可视化--Titanic
Python数据分析可视化–Titanic 这篇文章主要介绍泰坦尼克幸存者问题的数据处理以及可视乎部分,关于机器学习部分: 机器学习2:KNN决策树探究泰坦尼克号幸存者问题 文章目录 Python数据分析可视化--Titanic 导入数据 数据探索 判断是否存在缺失值 关系探索 仓位和存活率关系 性别和存活率关系 兄弟姐妹和孩子对于存活关系 数据可视化分析 数据预处理 import pandas as pd import seaborn as sns import matplotlib.pyplot
北山啦
2022/11/27
4310
Python数据分析可视化--Titanic
Kaggle初探--房价预测案例之数据分析
本文数据来源kaggle的House Prices: Advanced Regression Techniques大赛。
zhuanxu
2018/08/23
1.8K0
Kaggle初探--房价预测案例之数据分析
提高EDA(探索性数据分析)效率的 3 个简单工具
数据对于当今的每个行业都很重要,几乎每家公司都在收集数据并使用它们来做出数据驱动的业务决策。在这个过程中最重要的步骤之一是分析数据。有许多专门用于数据可视化的 python 库。例如 Matplotlib、Seaborn 等,但是他们只提供了图标的功能,如果我们需要进行EDA则需要手动编写代码。在本文中将介绍3个工具,这些工具可以使我们的探索性数据分析几乎自动化。
deephub
2022/04/14
7330
提高EDA(探索性数据分析)效率的 3 个简单工具
「数据分析」之零基础入门数据挖掘
摘要:对于数据挖掘项目,本文将学习应该从哪些角度分析数据?如何对数据进行整体把握,如何处理异常值与缺失值,从哪些维度进行特征及预测值分析?
Datawhale
2020/04/07
1K0
泰坦尼克号幸存预测
本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析
py3study
2020/01/20
1.2K0
Python 数据分析学习笔记
一、基本语法 [1507772432114_7239_1507772402948.jpg] 资料地址:http://www.icoolxue.com/album/show/113 1)python3新增特性: A: print()变化 B: 新增bytes类型,可以与str进行互换,以b字母作为前缀 C: 新增format()进行格式化处理 D: dict里面删除了iterkeys(),itervalues(), iteritems(), 新增keys(), values(), it
1039778
2018/01/15
3.4K0
Python 数据分析学习笔记
Python数据分析实验二:Python数据预处理
文章相关资源可参考我的GitCode仓库:https://gitcode.com/Morse_Chen/Python_data_analysis
Francek Chen
2025/01/22
2680
Python数据分析实验二:Python数据预处理
提高EDA(探索性数据分析)效率的 3 个简单工具
来源:DeepHub IMBA本文约1000字,建议阅读5分钟本文简单的介绍 3 个非常好用的的数据可视化和分析工具。 数据对于当今的每个行业都很重要,几乎每家公司都在收集数据并使用它们来做出数据驱动的业务决策。在这个过程中最重要的步骤之一是分析数据。有许多专门用于数据可视化的 python 库。例如 Matplotlib、Seaborn 等,但是他们只提供了图标的功能,如果我们需要进行EDA则需要手动编写代码。在本文中将介绍3个工具,这些工具可以使我们的探索性数据分析几乎自动化。 1、pandas_pro
数据派THU
2022/03/24
4370
独家 | 用pandas-profiling做出更好的探索性数据分析(附代码)
探索性数据分析已失势,Pandas-profiling万岁!用更省力的办法完美呈现你的数据。
数据派THU
2020/07/02
7530
独家 | 用pandas-profiling做出更好的探索性数据分析(附代码)
14个Seaborn数据可视化图
数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。
deephub
2020/10/19
2.2K0
14个Seaborn数据可视化图
数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池
汀丶人工智能
2022/12/21
7750
数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
独家 | 一文读懂R中的探索性数据分析(附R代码)
探索性数据分析(EDA)是数据项目的第一步。我们将创建一个代码模板来实现这一功能。
数据派THU
2018/12/18
1.1K0
独家 | 一文读懂R中的探索性数据分析(附R代码)
推荐阅读
相关推荐
10 个 Python 自动探索性数据分析神库!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验