👆点击“博文视点Broadview”,获取更多书讯 在大数据时代,数据的来源具有多样性、复杂性。 针对数量庞大、渠道及格式多样的数据,数据清洗就成为刚需。 在数据分析中,数据清洗实际上是十分繁重且关键的一步。 Power Query作为数据清洗的工具,能将这些多源的数据集中并统一转换成所需要的格式,为数据分析创造前提条件。 此外,Power Query还能使办公自动化更进一步,与常用办公软件Excel无缝衔接,使日常的重复工作实现自动化,得到高效并准确的处理结果,不仅可以为企业节省人力成本,还可以为个
在Power Query里,拆分列的功能非常强大,除了按分隔符、字符数等基本拆分功能外,还支持如从大写到小写或相反,从数据到非数字或相反等等特殊方式,相信很多朋友也都使用过:
大海:这种情况就不能直接用分隔符分列实现了。但实现起来也不复杂。我们先按分隔符拆分列到行:
要处理成这个样子(栅格内主服务小区CGI中可能包含50多个CGI,只提取前15个)
大海:嗯。这个直接操作的方法是有点儿问题,主要是因为,操作分列的时候,PQ会直接生成固定的列名,原来最多只要3个内容,就只生成了3列,所以以后有更多的数据时,就没有地方放了。你看原来生成的代码:
在Excel中,拆分是一项常见的任务,而Excel中的“分列”功能只能将单列文本拆分成多列。如果想拆分并提取文本中的数字,或者将文本拆分成多行,那么使用Power Query是一个好的选择。
对于列的拆分一般使用的比较多,也相对容易,通过菜单栏上的拆分列就能搞定,那如果是多列拆分又希望能一一对应的话需要如何操作呢?如图1所示,这是一份中国香港和中国台湾的电影分级制度,需要把对应的分级制度和说明给对应,那如何进行处理呢?目标效果如图2所示。
问题如下图,像这种将混在一个单元格里的内容,怎么拆分出来变成明细表?
有朋友在微信公众号的后台发消息提问:怎么同时对两列合并的文本进行逆透视?
最近一位学员问了一个问题:对每一行内容,只提取开头的数字,比如下图中第1行的“123”,第2行中的“345”……
大海:这是Power BI里增加的新功能。非常方便。另外还有“按照从小写到大写的转换”和“按照从大写到小写的转换”拆分列的功能。
群友问:如下图,像这种将混在一个单元格里的内容,怎么拆分出来变成明细表?
今天我们来学习一个简单的功能,就是一行转多行,本文将介绍如何通过Excel实现,下一篇将介绍Hive中的实现方法。
导语:一般来说,Excel里能实现的对数据的处理,在Power Query里都可以实现,有的Excel里方便一点儿,有的PQ里更快一些儿,但关键不在于多几个步骤还是少几个步骤,而是你是否需要重复地做。
首先,这是一篇水文,但是作为一个系列的三胞胎之一,我觉得有必要通过一题多解来扩散一下思维,正所谓“条条大路通罗马”。
> 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
在一些系统导出的数据里,或者一些表单采集到的多选项目的数据,很常见到的是将某一列的内容,多个项目合并成一行,如下图所示。
一般情况下,选数据分列,填入ABCD 用分隔符分列,但是后面混淆有apple,会把apple也拆分了。
在Excel中,我们可以使用“分列”功能(即“文本到列”),很容易地将单元格中带有特定分隔符的文本拆分到不同的列中。但是,对于使用<Alt+Enter>组合键换行的文本,不能够使用这个功能。例如,下图1所示的单元格中的数据,想要将其拆分到不同的列中,“分列”功能对其无效。
所有要进行操作的文件下载链接: https://pan.baidu.com/s/10VtUZw8G-Ly-r4VypntjiA 密码: y5qu 下载成功后,整个文件夹如下图所示。
小勤:以前拆分列转明细的操作里,分隔符都是逗号或斜杠之类的,只有一种,一下就搞定了,但是,如果是有几种分隔符呢?比如有逗号,有横杠……
温卫斌,就职于中国民生银行信息科技部,目前负责分布式技术平台设计与研发,主要关注分布式数据相关领域。
这是微信里一位朋友提的问题:将“亿”、“万”等不同单位(汉字)前的数字给提取出来:
大海:如果只要干一次,那很简单,直接在Excel里先将左括号“(”替换为逗号“,”,将右括号替换为空,然后直接按逗号拆分即可。操作如下动画所示:
有时候,我们需要根据身份证号码来自动生成出生日期、性别和年龄,有多种方法来实现,下面介绍几种,供参考。
在Excel中,我们经常会遇到要将文本拆分。Excel中的文本拆分为列,可以使用公式、“分列”功能或Power Query来实现。
在Excel中,如果我们想要在一个单元格中将内容显示在不同行,可以在需要断行处使用Alt+回车键。然而,有时候会反过来。工作表中有多个单元格中都存在在不同行显示内容,而我们需要删除这些换行符,将内容显示在一行。如何快速处理呢?
导语:在日常使用Power Query的过程中,可以多关注一下操作时自动生成的步骤公式,这其实就是最好的函数学习案例。
作为数据分析师,有时候我们拿到的数据可能有成百上千行或者成百上千列,如果我们想要选中这成百上千数据中的一部分进行处理,常规的方法是拖动鼠标进行框选,但对于数据量大的情况这种方法不一定好,这时候就该Excel快捷键出马了。
压测过程中测试小伙伴反映某个页面长时间loading无法打开,接下来我们排查一下,既然是压测环境,那么就需要排除服务器资源层面的因素,现在考验的就是在系统资源不足时系统的情况,那么我们就直接从代码层面开始排查。
小勤:大海,怎么把这个付款详情的数据给分离出来啊?我在网上搜了个神长公式,但看不懂啊!
大海:哈哈,的确挺奇葩的,这种数据录入的方法不仅容易出错,而且会害屎后面做统计分析的人——当然,也会让做统计分析的人更强大。
今天还是数据分析的学习,如果你觉得文章太长太没意思,欢迎拉到底部直接看大纲总结,一秒学会(学不会我也不负责,让你不看全文)。
PowerQuery是一个微软创建的基于Excel的免费插件,可以在Excel2010(及更高版本)使用。在Excel 2016及PowerBIDestop中已经内置。
之前我们有聊到Excel中会有一些完成不了的分列,这次我们来看下在Power Query中如何进行。分列数据的方法比较
本篇文章主要介绍如何在CDH 5.16.2集群中获取所有Hive表的分区数、小文件数量、表大小。
分析师面临的普遍问题是,无论从哪里获得数据,大部分情况都是一种不能立即使用的状态。因此,不仅需要时间把数据加载到文件中,还得花更多的时间来清洗它,改变它的结构,以便后续做分析的时候能更好的使用这个数据。
分类树的一个常见用途是预测抵押贷款申请人是否会拖欠贷款。数据包含对 5,960 名抵押贷款申请人的观察结果。一个名为的变量 Bad 表示申请人在获得贷款批准后是还清贷款还是拖欠贷款。
- 问题 - 商品目录明细中 规范化“颜色明细” 分离代码和颜色 - 结果需要 - - 关键实现步骤 - step 01 按分隔符拆分到行 Step 02 按分隔符拆分列
Excel作为操作平台上的电子制表软件的霸主,其丰富的函数:sum、average、vlookup等;丰富的快捷键:ctrl+A、ctrl+T、ctrl +E、ctrl+\等,大大提升了我们的办公效率。
欢迎访问原文: 【MySQL性能优化】MySQL分库分表与水平分割取模案例(三)
比如单元格里的内容是11124533,按各个数字出现的次数多少进行排列,结果表示为:13245。
Step-6:以换行符#(lf)【小写L和F】合并列(因目前Power Query在合并列功能中不支持直接选择特殊字符,因此,可以先选择“制表符”,然后修改)
Baker是蛋白质设计领域顶尖的科学家,最近老板让搜集一下他的全部文献,就使用爬虫技术全部收集了。
日常工作中,我们经常需要拆分或者合并单元格中的内容。需要用到各种公式left,right,mid,len等等,或者进行分列。Excel 2013版本开始,以上公式可以全部抛弃,只需要一个快捷键 Ctrl+E,下面举三个例子。
比如基因列为ID的需要转为常见的symbol,基因列为symbol|ID的就需要拆开了!
👆点击“博文视点Broadview”,获取更多书讯 传统的Excel单表虽然可以有100万行数据的承载量,但是在实际分析时,20万行的数据就已经让传统的Excel非常吃力了。 但是,如果使用Excel中的Power Query和Power Pivot商务智能组件,即使是上百万行数据,也可以在短时间内快速完成处理和分析。 Power Query在Excel和Power BI Desktop中都是内置组件,并且管理界面和知识体系保持了高度一致。 其实,Power BI中的Power Query和Power P
领取专属 10元无门槛券
手把手带您无忧上云