首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

数据清洗  1.1 空值和缺失值的处理  ​ 空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。  ​.... isnull(obj)  1.1.1.2 notnull()语法格式:  pandas . notnull(obj)  ​ notnull()与 isnull()函数的功能是一样的,都可以判断数据中是否存在空值或缺失值...(1)QL称为下四分位数,表示全部观察中四分之一的数据取值比它小 ​ (2)QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大 ​ (3)IQR称为四分位数间距,是上四分位数0与下四分位数则之差...2.2.1.1 how参数可以取下列值  left:使用左侧的 DataFrame的键,类似SQL的左外连接 right:使用右侧的 DataFrame的键,类似SQL的右外连接 outer:使用两个...how:可以从{‘left‘,’right’,’ outer‘,‘inner’}中任选一个,默认使用左连接的方式。

5.5K00

MySQL数据库基础——本地文件交互

从这一篇开始,大概会花四五篇的内容篇幅,归纳整理一下之前学过的SQL数据库,一来可以为接下来数据分析工作提前巩固基础,二来把以前学的SQL内容系统化、结构化。...文件导入(csv): 在导入本地文件之前,请确保你的MySQL设置有本地文件导入导出权限。 在导入MySQL之前,需要在指定数据库中先建立空表,以备之后导入。...CREATE TABLE 表名 ( column1 类型(字符位数) 是否允许为空值 自增列(可选) 默认值(可选), column2 类型(字符位数) 是否允许为空值 自增列(可选) 默认值...(可选), PRIMARY KEY (column1) ); 此时在MySQL中生成一个空表(仅有字段名称)。...指定从文件第几行开始导入(如果本地文件有行名,需要略过一行)(address,lon,lat,Type);-- 最后一行指定要导入的列名(次内列名需与之前新建的空表列名严格匹配) 主键可以设定为导入列中的某一列

7K120
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    该用Python还是SQL?4个案例教你

    不能否认的是,有些操作用Python执行起来要比SQL更加高效。这篇文章分享了4个能够节省时间的案例,在这几个案例中,Python在探索和分析数据集方面远远优于SQL。...例如: · 计数 · 平均值 · 标准偏差 · 最小值 · 第一四分位数 · 第二四分位数(中位数) · 第三四分位数 · 最大值 要想在SQL中得到以上信息,你需要输入: ?...在SQL中,你可以输入这样的查询(query): ? 在Python中,只需以下代码便可快速得到相同的两周移动平均值: ? 另外,Python能够进一步实现可视化。...枢轴 要想重新排列数据与枢轴以绘制图表或是演示文稿格式,在SQL中需要几个步骤才能实现。在这个案例中,需要将Mode Public Warehouse中大学橄榄球运动员的数据集从行枢轴转换到列枢轴。...当你从年份和比赛中SELECT大学橄榄球运动员后,可以跳转到Notebook并运行DataFrame.pivot。你能根据列值重塑数据,因而可以重新排列结果集。

    1.1K50

    数据分析究竟在分析什么?

    很多新人可能被唬住了,其实这些在我们以前的统计学中都学过。...今天就来聊聊我们该从哪些方向去分析(描述)数据。 总体概览指标: 总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。...位置平均时基于某种特殊位置上或者是普遍出现的标志值作为整体一般水平的代表值。有众数、中位数两种。 众数是被研究总体中出现次数最多的变量值,他是总体中最普遍的值,因此可以用来代表一般水平。...注意:众数只有在总体内单位充分多时才有意义。 中位数是将总体中各单位标志值按大小顺序排列,处于中间位置的变量值就是中位数。...对于问题1我们引入四分位距的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。

    40220

    数据分析EPHS(6)-使用Spark计算数列统计值

    前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。...在介绍之前,我还是想先说明一点,这一篇只是想先带大家体验一把Spark SQL,相关更多关于原理相关的知识,咱们会在后面的文章中详细介绍。...需要注意的一点是,这里和hive sql是有区别的,在hive sql中,stddev函数代表的是总体标准差,而在spark sql中,stddev函数代表的是样本标准差,可以查看一下源代码: ?...2.4 中位数 SparkSQL中也没有直接计算中位数的方法,所以我们还是借鉴上一篇中的思路,再来回顾一下: 计算中位数也好,计算四分位数也好,无非就是要取得两个位置嘛,假设我们的数据从小到大排,按照1...3、踩坑总结 在计算中位数或者四分位数时,我一开始的写法如下: ? 很奇怪的一点是,$"float_part" - 0没有报错,1 - $"float_part"却报错了,报的错误是: ?

    1.4K10

    数据库PostrageSQL-版本和平台兼容性

    不过使用’容易导致安全风险,因为在某些客户端字符集编码中,有多字节字符的最后一个字节在数值上等价于 ASCII的’。如果客户端代码没有做到正确转义,那么将会导致 SQL 注入攻击。...如果服务器拒绝看起来带有被反斜线转义的单引号的查询,那么就可以避免这种风险。...默认值是on。 希望使用反斜线作为转义符的应用应该被修改来使用转义字符串语法(E’…’),因为在 SQL 标准中普通字符串的默认行为是将反斜线视作一个普通字符。...从PostgreSQL9.1 开始,默认值为on(之前的发行中默认值为off)。应用可以检查这个参数来判断字符串文本如何被处理。这个参数的存在也可以被当做转义字符串语法(E’…’)被支持的标志。...因为expr = NULL形式的表达式总是返回空值(使用 SQL 标准解释)。它们不是非常有用并且在普通应用中也不常见,在应用中也不常见,因此这个选项实际上没有什么危害。

    1.2K20

    数据十问,问十道百

    8,OLAP的服务器结构有哪些? 9,常用的属性选择度量有哪些? 10,评估分类器性能的度量? 通过细微的十个小问题,以点画线,画出数据相关的知识面,直观把握知识,形成一个体系。...中心趋势度量:均值,中位数,中列数,众数; 离散趋势度量:极差,四分位数,方差,标准差,四分位数极差; 分布形态度量:峰度,偏度,一个标准正态分布数据偏度为0,峰度为3 2,刻画相异性的度量?...可用公式表示为: Z分数(z-score)规范化(或零均值规范化):属性的值基于A的均值(即平均值)和标准差规范化 小数定标规范化:通过移动属性A的值的小数点未知进行规范化。...小数点的移动位数依赖于A的最大绝对值。 还有scaling 图表化显示。 5,什么是数据仓库? William H....其它操作:钻过,钻透; 8,OLAP的服务器结构有哪些? 关系OLPA(ROLAP)服务器,多维OLAP(MOLAP)服务器,混合OLAP(HOLAP)服务器,特殊的SQL服务器。

    25520

    R语言数据挖掘实战系列(3)

    缺失值的影响有(1)数据挖掘建模将丢失大量的有用信息;(2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握;(3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。...如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。         (3)箱型图分析。...QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半...统计量分析         用统计指标对定量数据进行统计描述,通常从集中趋势和离中趋势两个方面进行分析。...、四分位数间距(四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

    1.1K30

    什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了

    在常见的数据挖掘工作中,脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据。 本文将主要对数据中的缺失值、异常值和一致性进行分析。...缺失值的影响 缺失值会产生以下的影响: 数据挖掘建模将丢失大量的有用信息。 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。...如客户年龄的最大值为199岁,则判断该变量的取值存在异常。 2. 3σ原则 如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。...QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小; QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大; IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半...箱型图依据实际数据绘制,对数据没有任何限制性要求,如服从某种特定的分布形式,它只是真实直观地表现数据分布的本来面貌;另一方面,箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:

    6.6K10

    统计学入门小知识

    weighted mean 加权平均值 给一组数中每个数规定一个权重,将每个数字和自己的权重相乘在相加起来除以总权重的到的值 例如 最终考试成绩的算法,给力如下权重 ?...那么这个学生的最终成绩为 (88X25+71X30+97X10+90X35)/100=84.5 quartiles 四分位数 四分位数有三个点,Q1,Q2,Q3 。...我们将一组数字从小到大排列,从最小数的到中位数之间的一段数字中再取中位数叫Q1,中位数就是Q2,从中位数到最大的数中间这段的中位数叫Q3....(A)+P(B)-P(A)*P(B) Compound Events 复合事件 复合事件就是两个或多个事件的组合 Mutually Exclusive Events 两两互斥事件 如果 A n B =空...条件概率表示为:P(B|A),读作“在A条件下B的概率”。如果A,B事件为互相独立的事件 那么 P(B|A)=P(B)。

    2.4K20

    微博热搜数据探索与处理

    # 查看整体数据信息,包括每个字段的名称、非空数量、字段的数据类型查看数据基本信息 pd_read_sql.info() describe默认输出数值类型的列的各项指标数据。...# 查看数据表中数据类型的列的数据分布情况 ''' count:数量统计,非空值数量 mean:均值 std:标准差 min:最小值 25%:四分之一分位数 50%:...二分之一分位数 75%:四分之三分位数 max:最大值 unipue:不同的值有多少个 top:出现次数最多的词 freq:top词出现的次数 ''' pd_read_sql.describe...import time # 新增五列 位置 姓名 组织 公司 年龄段 t1 = time.time() # 时间戳 单位秒 print(f'热搜标题处理开始时间:{t1}') # 从wb_title中解析出新增列...下一讲中,我们将一起学习对处理好的数据如何进行数据分析与可视化,也欢迎大家在留言区提出更多可以分析的角度,关于数据分析与可视化这一节,你还想学习什么其他的内容也可以在评论区、留言区进行留言。

    77910

    Spark数据工程|专题(1)——引入,安装,数据填充,异常处理等

    在这一部分,我们会介绍以平均数,中位数,众数和自己手动处理方式进行空值填充的方式。 现在我们考虑people.json,这个文件中,age这一列是存在一个空值的。...把这个需求变一变,就是下面的问题 Request 3: 对某一列中空值的部分填成这一列已有数据的 分位数 分位数在业界还是很有分量的一个统计量,但这个其实核心的问题还是落在SQL的书写上。...因为这里的语句很简单,一看就知道这个数据在第一行第一列,所以也很好写后续的操作。 说完平均数,中位数,众数之后,还有两个比较好解决的需求是最大值和最小值。...Request 8: 将异常值进行截断,即如果异常值大于上四分位数+1.5IQR,则截断至上四分位数+1.5IQR,小于下四分位数-1.5IQR,则同理操作。...Request 9: 将异常值进行丢弃,即如果异常值大于上四分位数+1.5IQR或小于下四分位数-1.5IQR,则丢弃。

    6.5K40

    三、模板变量及模板过滤器

    故而我们也可以在每个app的里面创建模板目录templates存放模板,这种方式需要将这个app添加到setting.py文件的 INSTALLED_APPS 列表中....包括空""和None first 返回第一个值 last 返回最后一个值 date 格式化时间和日期 time 格式化时间 join 连接字符串列表 length 返回字符串...12小时制的两位数的小时,如:01,09,12 H 24小时制的两位数的小时,如:01,13,24 i 分钟,从00-59 s 秒,从00-59 格式 效果 Y 四位数的年,如:2018...G 24小时制的一位数的小时,如:0,8,23 h 12小时制的两位数的小时,如:01,09,12 H 24小时制的两位数的小时,如:01,13,24 i 分钟,从00-59 s 秒,从00-59...在settings.py文件中添加STATICFILES_DIRS,设置静态文件目录路径,同templates。

    88130

    金融行业实战项目:如何理解业务?

    2.数据整理 假设该Excel数据是一个数据表(Datatable),请用SQL写出: (1)最近一次登录城市各有多少用户在表中? (2)“用户ID”之间的可能关系?...涉及到“每个”到业务问题,要想到《猴子 从零学会SQL》里讲过的用“分组汇总”来实现。 这里分组按用户id,汇总使用count函数进行计数。...image.png 最后,使用sql的floor函数来计算下四分位数,floor函数:向下舍入为指定小数位数。 image.png 同理,使用3*(n+1)/4可以用来计算上四分位数。...查询结果如下 image.png 第二步,用Tukey's test方法中k=1.5来找出中度异常值。 可以使用where函数找出异常值——在最大估算值和最小估算值之外的数据。...对数据项进行分组,找出数量大于2的数据即为重复值。 4.利用sql计算四分位数,找出异常值。增加一列行号并升序排列,利用公式取出上四分位数和下四分位数,找出最小和最大估计值,在此范围外的即为异常值。

    1.1K50

    新手指南:DVWA-1.9全级别教程之Brute Force

    Low 服务器端核心代码 可以看到,服务器只是验证了参数Login是否被设置(isset函数在php中用来检测变量是否设置,该函数返回的是布尔类型的值,即true/false),没有任何的防爆破机制,...)进行转义,基本上能够抵御sql注入攻击,说基本上是因为查到说 MySQL5.5.37以下版本如果设置编码为GBK,能够构造编码绕过mysql_real_escape_string 对单引号的转义(因实验环境的...每次服务器返回的登陆页面中都会包含一个随机的user_token的值,用户每次登录时都要将user_token一起提交。服务器收到请求后,会优先做token的检查,再进行sql查询。 ?...进行过滤、转义,进一步抵御sql注入。...get_token的功能是通过python的BeautifulSoup库从html页面中抓取user_token的值,为了方便展示,这里设置只尝试10次。 运行脚本时的Burpsuite截图 ?

    2.9K90

    词汇结构

    从概念上讲,以下步骤用于从文档中读取表达式: 文档根据其字符编码方案被解码为一系列 Unicode 字符。 执行词法分析,从而将 Unicode 字符流转换为标记流。本节的其余小节涵盖词法分析。...要将转义序列开始字符嵌入#(文本文字中,#需要对其本身进行转义: 复制 #(#)( 转义序列还可以包含短(四个十六进制数字)或长(八个十六进制数字)Unicode 代码点值。...文字:       逻辑文字       数字文字       文字文字       空文字       逐字文字 空字面量 空文字用于写入null值。该null值表示缺失值。...空字面量: null 逻辑文字 逻辑字面用于写入的值true和false,并产生一个逻辑值。 逻辑文字: true false 数字文字 数字文字用于写入数字值并生成数字值。...要在文本值中包含引号,请重复引号,如下所示: 复制 "The ""quoted"" text" // The "quoted" text 的字符转义序列生产可用于在文本值写入字符,而不必直接编码它们作为文档中的

    1.2K10

    值得收藏!数据分析最常用的18个概念,终于有人讲明白了

    缺失值 取值为空的值即为缺失值。缺失值比例是确定该字段是否可用的重要指标。一般情况下,如果缺失率超过50%,则该字段就完全不可用。 在很多情况下,我们需要区别对待null和0的关系。...四分位距是进行离群值判别的一个重要统计指标。一般情况下,极端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。著名的箱形图就是借助四分位数和四分位距的概念来画的,如图2-1所示。 ?...如果其值是0,则代表一个对称性的分布;若其值是正值,代表分布的峰值偏左;若其值是负值,代表分布的峰值偏右。在图2-2中给出了偏斜度的示例。 ?...Python Pandas中DataFrame的describe方法默认只统计连续性字段的最大值、最小值、均值、标准差、四分位数,如果想获取其他的特征值,需要调用相应的函数来获得。...类别中个体数量 在大多数情况下,如果某些类别中个体数量太少,如只有1%的比例,可以认为该类别是个离群值。关于分类型变量离群值的研究比较多,但是如果脱离业务来谈分类型变量的离群值,是不妥当的。

    1.3K11

    值得收藏!数据分析最常用的18个概念,终于有人讲明白了

    缺失值 取值为空的值即为缺失值。缺失值比例是确定该字段是否可用的重要指标。一般情况下,如果缺失率超过50%,则该字段就完全不可用。 在很多情况下,我们需要区别对待null和0的关系。...四分位距是进行离群值判别的一个重要统计指标。一般情况下,极端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。著名的箱形图就是借助四分位数和四分位距的概念来画的,如图2-1所示。 ?...如果其值是0,则代表一个对称性的分布;若其值是正值,代表分布的峰值偏左;若其值是负值,代表分布的峰值偏右。在图2-2中给出了偏斜度的示例。 ?...Python Pandas中DataFrame的describe方法默认只统计连续性字段的最大值、最小值、均值、标准差、四分位数,如果想获取其他的特征值,需要调用相应的函数来获得。...类别中个体数量 在大多数情况下,如果某些类别中个体数量太少,如只有1%的比例,可以认为该类别是个离群值。关于分类型变量离群值的研究比较多,但是如果脱离业务来谈分类型变量的离群值,是不妥当的。

    1.1K10

    怎么样描述你的数据——用python做描述性分析

    不同之处在于x_with_nan包含一个nan值。也就是空值(缺失值),这样的数据在分析中十分常见。...那么在python里,创建一个nan值可以有以下方法 float('nan') math.nan np.nan 当然这三种方法创建的空值都是等价的 ?...中忽略nan值: mean_ = z.mean() mean_ >>> z_with_nan.mean() 8.7 中位数 比较平均值和中位数,这是检测数据中异常值和不对称性的一种方法。...每个数据集都有三个四分位数,这是将数据集分为四个部分的百分位数: 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。...第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。 那么在python里面怎么计算分位数呢。

    2.1K10

    SQL基础查询方法

    这些来源可以是: 运行 SQL Server 的本地服务器中的基表。 本地 SQL Server 实例中的视图。SQL Server 在内部将一个视图引用按照组成该视图的基表解析为多个引用。 链接表。...通过将 OLE DB 数据源链接为链接服务器,或在 OPENROWSET 或 OPENQUERY 函数中引用数据源,可以从 SQL Server 访问 OLE DB 数据源。...空值将被认为是相互重复的内容。不论遇到多少个空值,结果中只返回一个 NULL。...有两种方法可指定平常用作通配符的字符: 使用 ESCAPE 关键字定义转义符。在模式中,当转义符置于通配符之前时,该通配符就解释为普通字符。例如,若要搜索字符串中所有的字符串 5%,请使用: ?...从 SQL Server 2005 开始,SQL Server 允许在 FROM 子句中指定对 SELECT 列表中未指定的表中的列进行排序。

    4.3K10
    领券