首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

怎么样描述你的数据——用python做描述性分析

那么在python里,创建一个nan值可以有以下方法 float('nan') math.nan np.nan 当然这三种方法创建的空值都是等价的 ?...但是真的相等吗,两个nan是不相等的,换句话说,是不可以进行比较的,这后面的故事以后再说。 ?...,但是,默认情况下,.mean()在Pandas中忽略nan值: mean_ = z.mean() mean_ >>> z_with_nan.mean() 8.7 中位数 比较平均值和中位数,这是检测数据中异常值和不对称性的一种方法...如,处于p%位置的值称第p百分位数。每个数据集都有三个四分位数,这是将数据集分为四个部分的百分位数: 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。...#数据集的平均值 std 15.124548 #数据集的标准差 min -5.000000 25% 0.100000 #数据集的四分位数 50% 8.000000

2.2K10

Python一行命令生成数据分析报告

一般在python进行数据分析/统计分析时,第一步总是对数据进行一些描述性分析、相关性分析,但是总会是有一大堆代码,那么今天就介绍一个神器pandas_profiling,一行命令就能搞定大部分描述性分析...安装 pip install pandas_profiling 使用 那么我们继续使用之前文章中使用过很多次的NBA数据集,还记得我们在介绍pandas使用的那篇文章中分很多章节去讲解如何使用pandas...对该数据集进行一些基础的数据分析吗,那就是使用df.describe()函数 ?...pandas_profiling扩展了pandas DataFrame的功能,可以使用df.profile_report()进行快速的数据分析。只需要一行命令就能得到所有结果!...可以看到,除了之前我们需要的一些描述性统计数据,该报告还包含以下信息: 类型推断:检测数据帧中列的数据类型。

1.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    只需七步就能掌握Python数据准备

    • 使用缺少的数据,Pandas文档 • pandas.DataFrame.fillna,Pandas文档 有很多方法可以在Pandas DataFrame中完成填充缺失值,并将其替换为所需的内容。...• 如何处理您的数据中的缺失值:第一部分,雅各布•约瑟夫 • 如何处理您的数据中的缺失值:第二部分,雅各布•约瑟夫 步骤4:处理异常值(Dealing with Outliers) 你能找到异常吗?...关于处理异常值的一些讨论: • 异常值:掉落或不掉落 The Analysis Factor • 从数据中移除异常值可以吗?...• 使用百分位数删除Pandas DataFrame中的异常值 Stack Overflow 步骤5:处理不平衡数据(Dealing with Imbalanced Data)   如果你的另一个强大的数据集缺少缺失值和异常值是由两个类组成...如果是这样,你的数据集就是不平衡的。这可能是有问题的,但没有必要把数据折腾到一边。或许你应该寻找更好的解决方法。

    1.7K71

    如何用Python读取开放数据?

    当你开始接触丰富多彩的开放数据集时,CSV、JSON和XML等格式名词就会奔涌而来。如何用Python高效地读取它们,为后续的整理和分析做准备呢?本文为你一步步展示过程,你自己也可以动手实践。...咱们使用其中的“Zillow Real Estate Research”,这是一个非常庞大的房地产数据集。 Zillow房地产数据都来自于美国城市。你可以根据自己的爱好,选择感兴趣的城市。...为了和csv数据做出区分,我们这次将数据读取后存储在df1变量。 显示一下前几行: 数据都对,可是列名称怪怪的。 没关系,我们刚才不是编制了整理函数吗?不管多么奇怪的列名称,都可以整理好。...我建议的系统学习方法,是到Beautifulsoup的文档页面认真阅读和学习。 如果你阅读英文文档有一些困难,可以看翻译好的中文文档,地址在这里。...你可能会有以下疑问: 既然CSV文件这么小巧,Pandas读取起来也方便,为什么还要费劲去学那么难用的JSON和XML数据读取方法呢? 这是个好问题! 我能想到的,至少有两个原因。

    2.7K80

    该用Python还是SQL?4个案例教你

    这篇文章分享了4个能够节省时间的案例,在这几个案例中,Python在探索和分析数据集方面远远优于SQL。...描述性统计 假设你正在探索新的数据集,可以使用许多不同的方法来统计描述这些数据,并得到总体感知。...你可以使用pandas的DataFrame.describe()函数来得出基础数据集的基本描述性统计信息。...当你从年份和比赛中SELECT大学橄榄球运动员后,可以跳转到Notebook并运行DataFrame.pivot。你能根据列值重塑数据,因而可以重新排列结果集。...要想创建自连接(self join),需要先输入此查询,以便为同一张表创建不同的引用名称。 ? 在pandas中,我们可以这样实现: ? 想自己尝试建立自连接吗?

    1.1K50

    特征工程系列学习(一)简单数字的奇淫技巧

    Echo Nest 品味画像数据集的统计 •有超过4800万个用户ID、音乐ID和监听计数三元组。 •完整的数据集包含1019318个独特用户和384546首独特歌曲。...推荐器的一个组件可以预测用户将对一首特别的歌曲会有多少喜欢。由于数据包含实际的听歌次数,这应该是预测的目标吗?如果一个大的听计数意味着用户真的喜欢这首歌,反之亦然,那是正确的。...Yelp 数据集包含用户对来自北美和欧洲十个城市的企业的评论。每个商户都标记为零个或多个类别。以下是有关数据集的相关统计信息。 关于第 6 轮 Yelp 数据集的统计 •有782种商户类别。...分位数装箱   固定宽度装箱很容易计算。但是如果计数有很大的差距, 那么将会有许多空的垃圾箱没有数据。该问题可以通过基于数据分布的垃圾箱自适应定位来解决。这可以使用分发的分位数来完成。   ...pandas.DataFrame.quantile和 pandas.Series.quantile 用于计算分位数。pandas.qcut将数据映射到所需数量的分位数。

    52210

    Python中的时间序列数据可视化的完整指南

    在这么多不同的库中有这么多的可视化方法,所以在一篇文章中包含所有这些方法是不实际的。 但是本文可以为您提供足够的工具和技术来清楚地讲述一个故事或理解和可视化时间序列数据。...我试图解释一些简单的方法和一些先进的技术。 数据集 如果您正在阅读本文以进行学习,则最好的方法是自己跟踪并运行所有代码。...有24个小节。每个条代表一个月。2017年7月大幅飙升。 找到季节性的一种方法是使用一组箱线图。这里我将为每个月制作箱线图。...图表展示变化 很多时候,查看数据如何随时间变化比查看日常数据更有用。 有几种不同的方法可以计算和可视化数据的变化。 shift shift函数在指定的时间之前或之后移动数据。...这样,它就能提供随时间变化的均值、中位数、和或标准差。它对财务数据、业务销售或利润数据不是很有用吗?

    2.1K30

    稀疏矩阵的概念介绍

    所以科学家们找到的一种既能够保存信息,又节省内存的方案:我们称之为“稀疏矩阵”。 背景 Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?...这就引出了一个简单的问题: 我们可以在常规的机器学习任务中只存储非零值来压缩矩阵的大小吗? 简单的答案是:是的,可以! 我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵(简称 CSR 矩阵)。...对于这种压缩我们的要求是压缩后的矩阵可以应用矩阵运算并以有效的方式访问指标,所以CSR并不是唯一方法,还有有更多的选项来存储稀疏矩阵。...第四个值3:表示第4行起始,因为第3行没有非0值,所以非0值的总数还是3 第五个值4:没有第5行,所以可以认为这个值是整个矩阵中所有非0值的总数 绘制样本数据 同样我们也可以对稀疏的矩阵进行可视化 import...这意味着,超过 90% 的数据点都用零填充。回到嘴上面的图,这就是上面我们看到为什么pandas占用内存多的原因。 我们为什么要关心稀疏矩阵? 好吧,使用稀疏矩阵有很多很好的理由。

    1.2K30

    10个实用的数据可视化的图表总结

    这表明与其他两种植物相比,濑蝶属植物的花瓣长度较小,其中维珍属植物的花瓣长度最高。 有了这个图,我们可以很容易地获得数据集的总体信息。数据集是什么样子的?让我们来看看。...3、等高线密度图(Contour ) 二维等高线密度图是可视化特定区域内数据点密度的另一种方法。这是为了找到两个数值变量的密度。例如,下面的图显示了在每个阴影区域有多少数据点。...在词云图中,所有单词都被绘制在特定的区域中,频繁出现的单词被高亮显示(用较大的字体显示)。有了这个词云,我们可以很容易地找到重要的客户反馈,热门的政治议程话题等。...我们也可以用这个图从文本中找到经常出现的单词。 总结 数据可视化是数据科学中不可缺少的一部分。在数据科学中,我们与数据打交道。手工分析少量数据是可以的,但当我们处理数千个数据时它就变得非常麻烦。...如果我们不能发现数据集的趋势和洞察力,我们可能无法使用这些数据。希望上面介绍的的图可以帮助你深入了解数据。

    2.4K50

    如何用Python读取开放数据?

    数据都对,可是列名称怪怪的。 没关系,我们刚才不是编制了整理函数吗?不管多么奇怪的列名称,都可以整理好。...我建议的系统学习方法,是到Beautifulsoup的文档页面认真阅读和学习。 ? 如果你阅读英文文档有一些困难,可以看翻译好的中文文档,地址在这里。...可以看到,我们关心的日期和交易中位数记录存放在datum标签下。 其中,日期数据的类型为“date”,交易价格中位数的类型为“float”。...我们手里,分别有了日期和交易价格中位数记录列表。下面我们将其转换成为Pandas数据框,并且存储于df2变量里。...你可能会有以下疑问: 既然CSV文件这么小巧,Pandas读取起来也方便,为什么还要费劲去学那么难用的JSON和XML数据读取方法呢? 这是个好问题! 我能想到的,至少有两个原因。

    1.9K20

    快乐学习Pandas入门篇:Pandas基础

    /new table.xlsx') 基本数据结构 Pandas处理的基本数据结构有 Series 和 DataFrame。两者的区别和联系见下表: ? Series 1....、有多少非缺失值、每列的类型;describe() 默认统计数值型数据的各个统计量,可以自行选择分位数位置。...它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?...练习 练习1: 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题: (a)在所有的数据中,一共出现了多少人物? (b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?...['Name'].value_counts() 练习2: 现有一份关于科比的投篮数据集,请解决如下问题: (a)哪种action_type和combined_shot_type的组合是最多的?

    2.4K30

    单变量分析 — 简介和实施

    当我们面对一个不熟悉的数据集时,可以利用单变量分析来熟悉数据。它描述和总结数据,以发现不仅仅通过查看整体数据就可以轻松观察到的模式。...执行单变量分析有各种方法,在本文中,我们将介绍其中一些最常见的方法,包括频率分析、数值和视觉总结(例如直方图和箱线图)以及数据透视表。 与我的其他文章类似,学习将通过练习题和答案来实现。...数据集 为了练习单变量分析,我们将使用UCI机器学习仓库中关于各种葡萄酒的化学分析的数据集,该数据集基于“数据探索、分类和相关性的可扩展包”(Forina, M. et al, 1998),可以从此链接...问题4: 使用“describe”方法创建数据集的“alcohol”列的数值总结。...问题5: 返回数据集的“alcohol”列的以下值:均值、标准差、最小值、第25、50和75百分位数以及最大值。 答案: 这些值可以使用Pandas和/或NumPy(等等)来计算。

    30910

    python数据分析之pandas超详细学习笔记

    print(s2) 输出: 第一个数 1 第二个数 3 第三个数 14 第四个数 521 dtype: int64 3、获取series的数据值 使用pandas.values...50%:二分之一分位数 75%:四分之三分位数 max:最大值 5、根据行、列、值进行排序 使用sort_index()、sort_values() import pandas...Ⅰ. df1[df1.D > 10] = 0 # df1.D > 10的作用是找到D列数据大于10的所有行数据 print(df1) 输出: A B C D 2021-...必须在左侧和右侧DataFrame对象中找到。 其中how有四个参数:inner、outer、left、right,默认值是inner。...inner的作用是取交集; outer的作用是取并集; left的作用是只取左边的表有值的情况; right的作用是只取右边的表有值的情况。 left和rigth的结果是outer的子集。

    1.6K40

    Python 全栈 191 问(附答案)

    Pandas 的 isin, set_index, reindex使用过吗? EDA 搞几张花哨的图形就完事了吗?如何思考、如何分析、思维方法呢?...说说你知道的创建字典的几种方法? 字典视图是什么? 所有对象都能作为字典的键吗? 集合内的元素可以为任意类型吗? 什么是可哈希类型?举几个例子 求集合的并集、差集、交集、子集的方法?...、中位数、众数填充。...如何区分这 4 种连接关系 Kaggle 数据集 EDA 实战,总结单变量分析的思维模式 Kaggle 数据集 EDA 实战,双变量分析的思维模式,使用 pivot_table, groupby, matplotlib...Pandas 使用 apply(type) 做类型检查 Pandas 使用标签和位置选择数据的技巧 一个快速清洗数据的小技巧,在某列上使用 replace 方法和正则,快速完成值的清洗。

    4.3K20

    干货:4个小技巧助你搞定缺失、混乱的数据(附实例代码)

    收集工具坏了,调查问卷上某些问题人们不想回答,或者文件被损坏了;这些还只是数据集可能不全的一小部分原因。如果想使用这个数据集,我们有两个选择:忽略缺失的数据,或者用一些值替代。 1....这就是我们用.groupby(...)方法对数据分组的原因。房产的价格重度依赖于房间的数目,这个推论也是成立的;如果我们的数据集更大,我们还能考虑beds这个变量。...数据对称分布且没有异常值时,才会返回一个合理的值;如果分布比较偏,平均值是有偏差的。衡量集中趋势更好的维度是中位数。...更多 有时候我们不会用均匀间隔的值,我们会让每个桶中拥有相同的数目。要达成这个目标,我们可以使用分位数。 分位数与百分位数有紧密的联系。...(...)方法可以传一个(0到1之间的)数字,来表明要返回的分位数(例如,0.5是中位数,0.25和0.75是上下四分位数)。

    1.5K30

    手把手带你开启机器学习之路——房价预测(一)

    街区在后文中也被称为区域,我们最终是要根据每个区域的其他特征预测该区域的房价中位数。 查看数据的结构 1.使用pandas读取数据,并用head()方法查看前5行样例。...可以看到一共有10个属性(特征) ? 2.使用info()方法查看数据集的整体描述信息 ? 我们可以获得以下信息:数据集一共包含20640个实例,其中total_bedroom有一些的缺失值。...类似的可以对其他属性有一个认识。 划分训练集和测试集 以上我们对整个数据集进行了熟悉,包括数据类型,缺失情况。每个属性单独的取值等等。接下来我们首先将数据划分为训练集和测试集,为后续建立模型做铺垫。...分层抽样得到的start_test_set的不同收入类别的比例与原数据集几乎一致。而随机抽样的各收入类别的比例则与它们有一些差别。 ?...使用中位数填充缺失值的代码如下: 删除缺失的行,可以使用pandas中的dropna()方法 删除该列,可以使用pandas中的drop()方法 用平均值或中位数填充该值,可以使用pandas中的fillna

    2.2K30

    稀疏矩阵的概念介绍

    所以科学家们找到的一种既能够保存信息,又节省内存的方案:我们称之为“稀疏矩阵”。 背景 Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?...我们在这里使用的数据集是 Santander Customer Satisfaction 数据集。 ...这就引出了一个简单的问题: 我们可以在常规的机器学习任务中只存储非零值来压缩矩阵的大小吗? 简单的答案是:是的,可以! 我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵(简称 CSR 矩阵)。...对于这种压缩我们的要求是压缩后的矩阵可以应用矩阵运算并以有效的方式访问指标,所以CSR并不是唯一方法,还有有更多的选项来存储稀疏矩阵。...这意味着,超过 90% 的数据点都用零填充。回到最上面的图,这就是上面我们看到为什么pandas占用内存多的原因。 我们为什么要关心稀疏矩阵? 好吧,使用稀疏矩阵有很多很好的理由。

    1.7K20

    Python数据分析学习路线个人总结

    当然,关于学习范畴,可能每个人的理解都不太一样,以下仅供参考。 ? 1 数据分析思维 数据分析属于分析思维的一个子类,有专门的数据方法论。只有先养成正确的分析思维,才能使用好数据。...我们可以先提出一个问题,比如此产品的核心功能是某某功能吗?...4.3 找出异常数据 统计中国家庭人均收入时,如果源数据里面,有王建林,马云等这种富豪,那么,人均收入的均值就会受到极大的影响,这个时候最好,绘制箱形图,看一看百分位数。...算法基于不均衡的数据学习出来的模型,在实际的预测集上,效果往往差于训练集上的效果,这是因为实际数据往往分布得很不均匀,这时候就要考虑怎么解决这些问题。下面是一本数据清洗不错的书籍: ?...8 数据建模分析 8.1 统计学基础知识 首先,入门数据分析需要必备一些统计学的基本知识,在这里我们简单列举几个入门级的重要概念。概率,平均值,中位数,众数,四分位数,期望,标准差,方差。

    1.6K20

    Python数据分析学习路线个人总结

    当然,关于学习范畴,可能每个人的理解都不太一样,以下仅供参考。 1 数据分析思维 数据分析属于分析思维的一个子类,有专门的数据方法论。只有先养成正确的分析思维,才能使用好数据。...我们可以先提出一个问题,比如此产品的核心功能是某某功能吗?...4.3 找出异常数据 统计中国家庭人均收入时,如果源数据里面,有王建林,马云等这种富豪,那么,人均收入的均值就会受到极大的影响,这个时候最好,绘制箱形图,看一看百分位数。...算法基于不均衡的数据学习出来的模型,在实际的预测集上,效果往往差于训练集上的效果,这是因为实际数据往往分布得很不均匀,这时候就要考虑怎么解决这些问题。...这一些列常用的统计指标,都在强大的数据分析包 Pandas 中实现了,非常方便。 8.2 统计量描述 说统计学是一种基于事实的演绎学问,它是严谨的,可以给出确切解释的。

    1.1K31
    领券