Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Python中如何进行数据分组

Python中如何进行数据分组

Erin

发布于 2018-01-09 08:41:33

发布于 2018-01-09 08:41:33

3.3K00

代码可运行

举报

文章被收录于专栏：大数据风控大数据风控

运行总次数：0

代码可运行

数据分组

根据数据分析对象的特征，按照一定的数值指标，把数据分析对象划分为不同的区间进行研究，以揭示其内在联系和规律性。 cut 函数： cut(series,bins,right=True,labels=NULL) ① series 需要分组的数据 ② bins 分组的划分数组 ③ right 分组的时候，右边是否闭合，默认为闭合True ④ labels 分组的自定义标签，可以不自定义

import pandas

data = pandas.read_csv(
    'D:\\PDA\\4.15\\data.csv', 
    sep='|'
)
#理解为什么我的bins区间要-1和+1
bins = [
    min(data.cost)-1, 20, 40, 60, 
    80, 100, max(data.cost)+1
]

data['cut'] = pandas.cut(
    data.cost, 
    bins
)

data['cut'] = pandas.cut(
    data.cost, 
    bins, 
    right=False
)

labels = [
    '20以下', '20到40', '40到60', 
    '60到80', '80到100', '100以上'
]

data['cut'] = pandas.cut(
    data.cost, bins, 
    right=False, labels=labels
)

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017年07月14日，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

06.简单计算&数据标准化&数据分组1.简单计算2.数据标准化3.数据分组

通常在综合评价分析、聚类分析、因子分析、主成分分析等分析开展之前，消除各个变量由于量纲不同、自身变异或者数值相差较大所引起的误差。

用户1250179

2018/08/02

3590

06.简单计算&数据标准化&数据分组1.简单计算2.数据标准化3.数据分组

Python中的结构分析pivot_table

本文介绍了Python中的结构分析pivot_table，包括市场细分、市场占有率、股权结构等应用，并提供了相关代码示例。

Erin

2018/01/09

1.8K1

08.基本统计&分组&分布分析1.基本统计分析2.分组分析3.分布分析

描述性统计分析，用来概括事物整体状况以及事物间联系，即事物的基本特征，以发现内在规律的统计分析方法。

用户1250179

2018/08/02

5250

09.交叉&结构&相关分析1.交叉分析2.结构分析3.相关分析

用于分析两个或两个以上，分组变量之间的联系，以交叉表形式进行变量间关系的对比分析。

用户1250179

2018/08/02

2.2K0

Python中的相关分析correlation analysis

相关分析（correlation analysis）研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。线性相关关系主要采用皮尔逊（Pearson）相关系数r来度量连续变量之间线性相

Erin

2018/01/09

2.6K0

Python中的相关分析correlation analysis

Python中的分布分析cut+groupby

分布分析（cut+groupby）根据分析目的，将数据（定量数据）进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法。 import numpy import pandas data = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' ) aggResult = data.groupby( by=['年龄'] )['年龄'].agg({ '人数': numpy.size }) data

Erin

2018/01/09

1.8K0

10.RFM分析&矩阵分析1.RFM分析2.矩阵分析

1.最近有过交易行为的客户，再次发生交易的可能性要高于最近没有交易行为的客户。 2.交易频率较高的客户比交易频率较低的客户，更有可能再次发生交易行为。 3.过去所有交易总金额较多的客户，比交易总金额较少的客户，更有消费积极性。

用户1250179

2018/08/02

9640

10.RFM分析&矩阵分析1.RFM分析2.矩阵分析

用python数据分析了北京积分落户名单，发现……

北京积分落户制度已经实行两年了，2018年申报积分落户的124657名申请人中6019位落户人员取得落户资格。

朱小五

2020/01/16

9350

用python数据分析了北京积分落户名单，发现……

Python中的交叉分析pivot_table

交叉分析通常用于分析两个或两个以上，分组变量之间的关系，以交叉表形式进行变量间关系的对比分析；从数据的不同维度，综合进行分组细分，进一步了解数据的构成、分布特征。交叉计数函数： pivot_table(values,index,columns,aggfunc,fill_value) 参数说明： values：数据透视表中的值 index：数据透视表中的行 columns：数据透视表中的列 aggfunc：统计函数 fill_value：NA值的同一替换 #相当于excel中的数据透视表功

Erin

2018/01/09

2.4K0

干货：用Python进行数据清洗，这7种方法你一定要掌握

导读：数据清洗是数据分析的必备环节，在进行分析过程中，会有很多不符合分析要求的数据，例如重复、错误、缺失、异常类数据。

IT阅读排行榜

2018/12/18

10.8K0

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

python 数据分析

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规变为想要的格式。如果你发现了一种本书或pandas库中没有的数据操作方式，请尽管

SeanCheney

2018/04/24

5.4K0

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

Python数据分析及可视化-小测验

python 数据分析 https 人工智能 ios

本文中测验需要的文件夹下载链接: https://pan.baidu.com/s/1OqFM2TNY75iOST6fBlm6jw 密码: rmbt 下载压缩包后解压如下图所示：

潇洒坤

2018/09/10

2.2K0

Python数据分析及可视化-小测验

Pandas全景透视：解锁数据科学的黄金钥匙

python 数据万象 pandas

当许多人开始踏足数据分析领域时，他们常常会对选择何种工具感到迷茫。在这个充满各种选项的时代，为什么会有这么多人选择 Pandas 作为他们的数据分析工具呢？这个问题似乎简单，但背后涉及了许多关键因素。在探究这个问题之前，让我们先理解一下 Pandas 的背景和特点。

Python攻城狮

2024/04/18

3300

5种方法教你用Python玩转histogram直方图

直方图是一个可以快速展示数据概率分布的工具，直观易于理解，并深受数据爱好者的喜爱。大家平时可能见到最多就是 matplotlib，seaborn 等高级封装的库包，类似以下这样的绘图。

Python数据科学

2018/08/06

4.3K1

5种方法教你用Python玩转histogram直方图

想要使用Python进行数据分析，应该使用那些工具

2023腾讯·技术创作特训营第三期

Python的数据分析能力非常出色，因为它有广泛的功能库和工具，可为数据准备、清理、分析和呈现提供全面支持。Pandas和NumPy是Python用于数据科学的核心库，pandas提供数据框架，而NumPy则提供了广泛的数值计算操作。这两个库结合起来使用，可以为Python的数据分析和科学计算领域提供很好的基础。

zayyo

2023/11/30

2600

这几个方法颠覆你对Pandas缓慢的观念！

作者：xiaoyu 知乎：https://zhuanlan.zhihu.com/pypcfx 介绍：一个半路转行的数据挖掘工程师

1480

2019/07/15

3.1K0

这几个方法颠覆你对Pandas缓慢的观念！

R中五种常用的统计分析方法

本文介绍了五种常用的统计分析方法，包括分组分析、分布分析、交叉分析和结构分析，以及相关分析。这些方法可以用于研究数据的不同方面，以了解数据的构成、分布特征和变量间的关系。

Erin

2018/01/09

3.5K0

Pandas常用的数据处理方法

本文的Pandas知识点包括： 1、合并数据集 2、重塑和轴向旋转 3、数据转换 4、数据聚合 1、合并数据集 Pandas中合并数据集有多种方式，这里我们来逐一介绍 1.1 数据库风格合并数据库风格的合并指根据索引或某一列的值是否相等进行合并的方式，在pandas中，这种合并使用merge以及join函数实现。先来看下面的例子： df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)}) df2 = pd.Dat

石晓文

2018/04/11

8.5K0

Pandas常用的数据处理方法

完整数据分析流程：Python中的Pandas如何解决业务问题

数据分析特征工程

作为万金油式的胶水语言，Python几乎无所不能，在数据科学领域的作用更是不可取代。数据分析硬实力中，Python是一个非常值得投入学习的工具。

饼干哥哥

2023/01/01

1.7K0

Python 数据分析（PYDA）第三版（三）

字符串 python 数据分析对象数据

读取数据并使其可访问（通常称为数据加载）是使用本书中大多数工具的必要第一步。术语解析有时也用于描述加载文本数据并将其解释为表格和不同数据类型。我将专注于使用 pandas 进行数据输入和输出，尽管其他库中有许多工具可帮助读取和写入各种格式的数据。

ApacheCN_飞龙

2024/05/24

5020

相关推荐

06.简单计算&数据标准化&数据分组1.简单计算2.数据标准化3.数据分组

更多 >

本文部分代码块支持一键运行，欢迎体验

本文部分代码块支持一键运行，欢迎体验