首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Power Query 真经 - 第 7 章 - 常用数据转换

【注意】 对于这个数据集,只需要在每一行上重复 “Sales Category”,但用户应该知道,在数据【逆透视其他列】之前,也可以选择多个列。...总的来说,需要对 Power Query 默认设置进行的唯一更改是将【拆分为】的【列】改为【行】。一旦这样做,数据就会很好地拆分成新的行,如图 7-16 所示。...图 7-21 “Sales” 列有超过 1000 个唯一值 这里可能出现的挑战是,当需要筛选的值不在预览的前 1000 行之内,而且在这个列的前 1000 个唯一值之外。...当然,如果有六年的数据,会有六个不同年份的一月份结果,这可能是或者也可能不是用户想要的数据结果。 将数据集筛选到【最早】的日期,只筛选与所选列中最早的日期相匹配的行。...当需要强制它们筛选 2022 年时,需要编辑查询并手动更改它。 7.4.3 数据排序 在本章中,要探讨的最后一项技术是排序。继续上一节的内容,用户希望按 “State” 列的升序对数据进行排序。

7.5K31

独家 | 提速20倍!3个细节优化Tableau工作簿加载过程(附实例)

如果你不确定它是否正在使用,请不要担心,Tableau会在关闭正在使用的数据源之前发出警告。这样,TWBX文件大小几乎会减少一半。 数据量有180万行,但大部分都未在可视化中用到。...先使用Year和Gender筛选器,接着对Sales的求和进行排序。不幸的是,这些筛选器只把180万行数据减少到1,052,480行。...Alan写道,“仅使用你需要的数据”,这是非常棒的建议。这个工作簿有180万行数据,而在细节粒度最小的视图中也只用了2300行数据。理想情况下,我们会将数据减少到所需要的量,而不是使用整个数据集。...在Kasia Viz作品中,我用了2个快速简便的数据源筛选器: Year筛选器 数据集最早的年份是1880年,但Kasia仅使用1900至2014年的数据,筛选“至少1900年”,将删除56,000条未在分析中使用的记录...使用的最低计数是1906,通过添加最低计数1906的数据源筛选器,可以删除未使用的180万行数据。 应用这两个数据源筛选器,可以将数据集从1,825,433行减少到24,130行。

2.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    独家 | 手把手教数据可视化工具Tableau

    前言 数据的世界正在发生急剧变化,任何人都应该访问自己需要的数据,并具备获取任何数据的洞察力,而tableau正是帮我们洞察数据的好帮手。...为何一些字段的背景颜色是蓝色,而另外一些字段的背景颜色是绿色? 本节中的主题将尝试阐明这些问题,以及有关您在使用 Tableau Desktop 可以看到和体验到的功能的其他问题。...默认情况下,维度是离散的,度量是连续的,但事实上所有四种组合都有可能: 注意: 对于多维数据集(多维)数据源(仅在 Windows 上受支持),它用于更改数据角色的选项受到限制。...我们之所以知道该字段是连续的,原因就在于该轴,并且它的背景为绿色;而我们之所以知道该字段是维度,原因在于它未聚合。...问题在于,这些筛选器是同时执行的,而您希望常规筛选器在“前 N 个”筛选器之前应用,以便“前 N 个”筛选器可对常规筛选器预先筛选的结果进行操作。

    18.9K71

    Extreme DAX-第5章 基于DAX的安全性

    当涉及到度量值的计值上下文时,这的确没问题,但对于安全筛选器则不是这样。 实际上,发生这个错误你应该感到庆幸,因为我们正在尝试做的是删除或更改fHours表上的安全性。...例如“我在报表中看不到任何数据”或者是“我应该看到 X 和 Y,但只能看到 X;哦,还有Z”。还有更加严重的情况,“John应该只看到X,但他却看到了全部的数据”。...不要忘记,更改参数值后需要刷新模拟数据集。由于该参数是模型中唯一的内容,因此刷新在一瞬间即可完成。接下来,找到与 PBITestUser 共享的报表并打开。...我们使用了单独的测试工作区来托管Impersonation数据集,但你可能希望以其他方式解决此问题。...该关系需要启用双向交叉筛选。例如,通过FullName选择员工时,你希望选择该员工的私人数据。反之亦然:在选择薪酬水平时,你希望选择具有该薪酬水平的所有员工。

    4.9K30

    盘点66个Pandas函数,轻松搞定“数据清洗”!

    大家好,我是小五 之前黄同学曾经总结过一些Pandas函数,主要是针对字符串进行一系列的操作。在此基础上我又扩展了几倍,全文较长,建议先收藏。...df.columns 输出: Index(['日期', '销量'], dtype='object') 前面介绍的函数主要是读取数据集的数据信息,想要获得数据集的大小(长宽),可以使用.shape方法...数据筛选 如果是筛选行列的话,通常有以下几种方法: 有时我们需要按条件选择部分列、部分行,一般常用的方法有: 操作 语法 返回结果 选择列 df[col] Series 按索引选择行 df.loc[label...] Series 按数字索引选择行 df.iloc[loc] Series 使用切片选择行 df[:5] DataFrame 用表达式筛选行[3] df[bool_vec] DataFrame 除此以外...df.query("语文 > 英语") 输出: select_dtypes()方法可用于筛选某些数据类型的变量或列。举例,我们仅选择具有数据类型'int64'的列。

    3.8K11

    Power Query 真经 - 第 5 章 - 从平面文件导入数据

    日期在这方面的问题特别多。由于许多流行的数据库软件是由美国软件工程师编写的,他们通常以【MM/dd/yy】的格式输入数据,尽管美国是世界上唯一遵循这一日期标准的国家。...图 5-5 所有的都是文本,所以可以看到正在处理的内容 5.2.5 使用区域设置 此时,希望对 “Date” 列进行明确的控制,告诉 Power Query 如何解释日期并将其转换为正确的日期序列号。...由于日期中的字符数是 “10” 个,先尝试 “12” 个字符。 转到【主页】【拆分列】【按字符数】,弹出的对话框中【字符数】下面填写 “12”,【拆分】下面选择【重复】【确定】。...如果仔细观察这些数据,会发现 “Error” 只发生在那些恰好是用户无论如何都要筛选掉的行中。...在试图筛选某一列之前,处理该列中的错误是至关重要的。如果用户对一个包含错误的列应用筛选器,它将会截断数据集。 尽管已经取得了进展,但似乎有一些行还是有问题的。

    5.3K20

    数据可视化基础与应用-02-基于powerbi实现医院数据集的指标体系的仪表盘制作

    总结 本系列是数据可视化基础与应用的第02篇,主要介绍基于powerbi实现医院数据集的指标体系的仪表盘制作。...数据集描述 医生数据集doctor 医生编号是唯一的,名称会存在重复 医疗项目数据projects 病例编号是唯一的,注意这个日期编号不是真正的日期。...日期数据date 这里的日期编号对应医疗项目数据中的日期编号 科室数据集Department 维度表 采购成本事实表Purchase costs 事实表,缺乏采购成本唯一编号 分析思路...数据处理power query 打开数据 打开 病例分析报告.xlsx 文件,选择5个工作簿,点击转换数据可以进入power query界面 处理日期数据集 Date 注意各个表之间的字段类型...,这个步骤应该不用修改 处理科室数据集 Department 把科室数据集中的第一行作为列 处理医疗项目数据projects 这一个步骤也不用执行转换 处理采购成本projects 这一个步骤需要添加一个索引列

    26111

    SQL命令 INSERT(一)

    query - 一种选择查询,其结果集为一个或多个新行的相应列字段提供数据值。 描述 INSERT语句有两种使用方式: 单行插入会向表中添加一个新行。...如果INSERT请求由于唯一键冲突而失败(对于某个唯一键的字段,存在与为INSERT指定的行具有相同值的行),则它会自动转换为该行的UPDATE请求,并且INSERT或UPDATE使用指定的字段值更新现有行...%Keyword字选项 指定%Keyword参数将按如下方式限制处理: %NOCHECK-不执行唯一值检查和外键引用完整性检查。也不执行针对数据类型、最大长度、数据约束和其他验证条件的列数据验证。...如果希望在指定%NOCHECK时防止插入非唯一数据值,请在插入之前执行EXISTS检查。...例如,通过指定选择模式,可以输入显示格式(例如2018年2/22/2018)、odbc格式(例如2018-02-22)或逻辑格式(例如64701)的日期。

    6K20

    matlab数据可视化交通流量分析天气条件、共享单车时间序列数据

    tabe2tmeabe(biel); 访问时间和数据 将Day 变量转换 为分类变量。分类数据类型专为包含有限离散值集的数据而设计,例如一周中的日期名称。列出类别,以便它们按天顺序显示。...mean(cots,'omitn') 按日期和时间选择数据 要确定假期期间有多少人骑自行车,请检查 7 月 4 日假期的数据。按 7 月 4 日的行时间索引时间表。...时间表的行时间不必按任何特定顺序排列。它可以包含未按行时间排序的行。时间表还可以包含具有相同行时间的多行,尽管这些行可以具有不同的数据值。即使行时间已排序且唯一,它们也可能因不同大小的时间步长而不同。...当时间表是规则的时,它的行时间是经过排序且唯一的,并且在它们之间具有统一或均匀区间的时间步长。 要查找缺失的行时间,请使用 ismissing. 要删除缺失的时间和数据,请使用 rmmissing....这可能表明人们在进出城市时往往会选择不同的路线。另一种可能是,有些人一天进去,另一天回来。 确定一天中的小时 varfun 用于按组计算。

    10910

    Extreme DAX-第4章 上下文和筛选

    OneWay(单向):沿默认方向传递筛选器,从具有主(唯一)键的表到包含外(非唯一)键的表。 Both(双向):在两个方向上传递筛选器。 None(无):不传递筛选器。...,并且由于 VALUES 从该列中获取唯一值,因此 VALUES(Cities[CityID])具有该列的数据沿袭。...但是,某些函数允许以奇怪的方式形成新的表,这在数据沿袭方面可能存在问题。例如,UNION 函数允许从两个源表中获取行来组合成为一个新的表,这两个表可能具有冲突的数据沿袭。...如果是这样,则结果表中的列与模型中的任何现有的列都没有数据沿袭。 在某些情况下,您也可能希望虚拟表的数据沿袭与默认值不同。...在本例中所展示的数据,因为不存在完全相同的行,因此每一行上由行上下文转换而来的筛选上下文都不相同,这些筛选上下文起作用时只会将这个唯一行筛选出来。

    5.8K21

    Extreme DAX-第 2 章 模型设计

    图2.1对此过程进行了可视化说明:按行存储数据(由数字标识)无法有效地检索需要列的所有值。...图2.1 从基于行的存储中检索列的值效率低下 2.1.2 列式数据库 与RDBMS的按行存储数据不同的是,Power BI模型通过按列存储数据来实现这一过程。...小数是在此基础上添加二十四小时制的一天中的时间;例如,值 2.5 表示 1900 年 1 月 1 日中午。 您有三种选择来存储日期/时间数据。日期/时间数据类型同时存储日期和时间。...这么一看,它们应该与关系型数据库中的关系相当,但实际上,它们完全是两个不同的事物。 Power BI 模型中关系的基础是具有唯一键的数据表。...如果从这两列到日期表都存在关系,并且在日期表中选择了一行,那么我们在探讨应当筛选哪些销售交易记录时,会产生如下的疑问:是在该日期订购的交易记录,还是已付款的交易记录,还是将两者都筛选出来?

    3.5K10

    如何在矩阵的行上显示“其他”【3】切片器动态筛选的猫腻

    往期推荐 如何在矩阵的行上显示“其他”【1】 如何在矩阵的行上显示“其他”【2】 正文开始 上一篇文章的末尾,我放了一张动图: 当年度切片器变换筛选时,子类别中显示的种类和顺序是不相同的,但不变的是...再次,年度切片器变化时,不同的子类别对应的数据变化,而我们说数据表在建立的那一刻起就是固定的,除非再次刷新,否则切片器不会改变原数据。...那么我们基本上可以得出结论了:数据表是由子类别和年度组合构成,把每年的子类别对应的销售额放进去,通过筛选年度切片器,达到选择不同年份时显示不同的销售额。 我们根据以上的思路试着来建立模型。...排名 RANKX是迭代函数,会将行上下文自动转为筛选上下文,因此需要将除了年度以外的列都ALL掉,这样才能保证在每个年度内进行RANKX排序。...我们来看一下效果: 这样基本达到了本文开始的要求: 当年度切片器变换筛选时,子类别中显示的种类和顺序是不相同的,但不变的是: ①others永远显示在最后一行 ②显示的10个子类别按照sales或sales

    2.5K20

    基本 SQL 之增删改查(二)

    ,我们就需要连接两个表,而我们的交叉连接会为我们产生太多冗余数据行,我们可以使用 where 子句对笛卡尔积后的结果集进行一个条件筛选。...,但实现原理是不同的,效率也是不一样的,交叉连接通过笛卡尔积返回结果集再结合 where 子句剔除冗余数据行,而内连接的 ON 筛选器工作在笛卡尔积过程中,只有符合条件才能合并生成新的数据行。...这个问题的核心点在于,我不仅要满足连接条件成功合并的数据行,还要那些未成功匹配的行,也就是说学生表的所有行都得出现。...子查询 子查询,顾名思义就是嵌套的别的查询语句中的查询,因为很多时候查询不是一蹴而就的,往往是需要一个中间结果集作一个过渡的,而我们的子查询就是用于这种中间结果集过渡。...日期时间函数: 由于日期函数在不同的数据实现来说,很多相同功能的函数具有不同的函数名称,我们这里仅以 MySql 来介绍这些函数,给你一个宏观印象,不同的数据库之间只不过语法差异,搜索引擎就可以解决。

    90120

    Excel高级筛选完全指南

    示例1:提取唯一值 可以使用Excel高级筛选从数据集中快速提取唯一值记录(或者,移除重复值)。如下图1所示的数据集。...图1 在该数据集中存在重复记录,此时可以使用Excel高级筛选工具快速获取所有唯一记录的列表并放置在指定位置(以便原始数据保持不变)。 步骤如下: 1.选择包括列标题在内的整个数据集。...“方式”中“将筛选结果复制到其他位置”,允许指定获取唯一记录列表后要放置的位置。“列表区域”中指定想要查找唯一记录的数据集区域地址,注意确保包括数据集标题。“条件区域”留空。...图4 注意:使用高级筛选获取唯一值列表时,确保选择了标题行,否则,它会将第一行视为标题。 示例2:在Excel高级筛选中使用条件 使用Excel高级筛选可以使用复杂的条件筛选数据。...图7 3.选择原始数据集(注意,包括标题行)。 4.单击功能区“数据”选项卡“排序和筛选”组中的“高级”命令按钮,打开“高级筛选”对话框。

    4K30

    PowerBI 职业专题-HR-在职与离职

    基础数据 为了简化问题,这里仅仅使用两张表。 离职人员 ? 可以看到明显的特点是对员工离职表,仅仅记录必要的离职日期。 日期表 ? 日期表。...问题重述 按年,月,部门计算当月离职人数; 按年,月,部门计算当月积累离职人数; 按年,月,部门计算当月在职人数; 值得注意的是,以上三个问题有一定的相关性。 数据模型 ? 实现效果 ?...度量值讲解 KPI.人数.离职.当期 = COUNTROWS( VALUES( Data[工号] ) ) 对人数的计算,应该以员工编号作为唯一标识,因此使用该列,同时,我们希望这个计算保持可被筛选的特性...( ALL( 'Date'[日期] ) , 'Date'[日期] 日期] ) ) ) 首先要理解这个定式,但在该案例中仅仅这样是不行的,我们需要在离职的数据中考虑,因此多加了一个筛选条件...第 5 行,MAXX 创建针对于 ‘Date’ 的迭代所处的筛选上下文是 进入 CALCULATE 前的筛选上下文,如 2019年3月。 第 7 行,由 DAX 引擎添加。

    2.8K20

    fast.ai 机器学习笔记(一)

    因此,如果我们使用一个随机样本作为验证集,那将更容易,因为我们正在预测在这一天的工业设备的价值,而我们已经有了那一天的一些观察结果。...此外,我们希望使用最近日期的验证集,而不是随机的。...我使用了这种确切的方法,发现了一些几乎完全预测因变量的列。具体来说,当我查看它们是如何预测的时候,结果是它们是否缺失是数据集中唯一重要的事情。由于这一发现,我最终赢得了那场比赛。...特别是当你在一个非常庞大的数据集上运行,比如一亿行,就不可能在完整的数据集上运行。所以你要么在开始之前自己选择一个子样本,要么使用set_rf_samples。...所以我们要做一些额外的工作来尝试去除冗余特征。我做的方法是做一些叫做“树状图”的东西。它有点像分层聚类。 聚类分析是一种尝试查看对象的方法,它们可以是数据集中的行或列,并找出彼此相似的对象。

    39010

    MySQL基础(快速复习版)

    ,然后表再放到库中 2、一个库中可以有多张表,每张表具有唯一的表名用来标识自己 3、表中有一个或多个列,列又称为“字段”,相当于java中“属性” 4、表中的每一行数据,相当于java中“对象” 四、常见的数据库管理系统...: ​ 表子查询 where或having后面: ​ 标量子查询 ​ 列子查询 ​ 行子查询 exists后面: ​ 标量子查询 ​ 列子查询 ​ 行子查询 ​ 表子查询 2、按结果集的行列...标量子查询(单行子查询):结果集为一行一列 列子查询(多行子查询):结果集为多行一列 行子查询:结果集为多行多列 表子查询:结果集为多行多列 三、示例 where或having后面 1、标量子查询 案例...,唯一可以为空 2、相同点 都具有唯一性 都支持组合键,但不推荐 外键: 1、用于限制两个表的关系,从表的字段值引用了主表的某字段值 2、外键列和主表的被引用列要求类型一致,意义一样,名称无要求 3、主表的被引用列要求是一个...脏读:一个事务读取了其他事务还没有提交的数据,读到的是其他事务“更新”的数据 不可重复读:一个事务多次读取,结果不一样 幻读:一个事务读取了其他事务还没有提交的数据,只是读到的是 其他事务“插入”的数据

    4.5K20

    Pandas 的Merge函数详解

    在日常工作中,我们可能会从多个数据集中获取数据,并且希望合并两个或多个不同的数据集。这时就可以使用Pandas包中的Merge函数。...pd.merge(customer, order) 默认情况下,merge函数是这样工作的: 将按列合并,并尝试从两个数据集中找到公共列,使用来自两个DataFrame(内连接)的列值之间的交集。...pd.to_datetime(order['order_date']) delivery['delivery_date'] = pd.to_datetime(delivery['delivery_date']) 让我们尝试按日期列合并两个数据集...是按连接键排序的Order和Delivery数据集的Outer Join结果。...另外具有精确匹配的键也会受到影响,它们会选择最后一行键。 可以通过设置allow_exact_matches=False来关闭精确匹配合并。

    32330

    国产BI的“耻辱”:QuickBI 计算功能测评(下)

    唯一的方式,只能是在字段之外、数据表下方位置,点击一个小小的加号,而后选择“新建计算字段”! 而每次创建计算字段,我都觉得是一次煎熬,如果你不能体会这个感受,大概是中毒已深、未曾分别真假便已入局。...2022年——背后是 YEAR 函数和逻辑判断(这里用订单日期) 品牌——背后是 SPLIT 拆分函数,是行级别函数和字符串函数的代表 销售额总和——背后是最常见的 SUM 聚合 ‍ 1、这里先看神奇的筛选...由于日期是特殊的字符串,是具有连续性的、层次性的字符串,几乎每个 BI 工具都能快速完成日期部分的选择(甚至 Excel 都有这个功能,只是没有那么好用)。...问题在于,当我尝试筛选的时候,我连续选择了好几年都没有找到有效的样本! 有人会说,这是你数据的问题! 是的,我承认,我事先并不知道这个数据表其实只有2014~2017年的数据(参见上图左上角)。...我在默认弹出的日期筛选范围(2020~2029)中选择多个都不行,最后才不得不做了一个“各年度的销售额金额”柱状图来确认有效范围。 问题是,为什么筛选不能提示有效的数据值范围?难道这不应该是常识吗?

    42700

    Fama French (FF) 三因子模型和CAPM模型分析股票市场投资组合风险收益可视化

    当我们将投资组合的收益率与HML因子进行回归时,我们正在调查有多少收益是由于包括高账面市值比率的股票(有时被称为价值溢价,因为高账面市值的股票被称为价值股票)。...发生这种情况时,可以通过跳过一定数量的包含元数据的行来修复它 。看看如果我们跳过 6 行。...但是,请注意 FF 使用当月的第一天,而我们的投资组合收益使用的是当月的最后一天。这会将每月日期回滚到上个月的最后一天。我们 FF 数据中的第一个日期是“1990-07-01”。让我们回滚。...最后,我们只想要与我们的投资组合数据一致的 FF 因子数据,因此我们 在投资组合返回对象中 按 日期first() 和 last()日期filter()。...我们可以将这些结果通过管道传输到 ggplot() 并创建具有置信区间的系数散点图。我不想绘制截距,因此会将其从代码流中过滤掉。 我们用errorbar添加置信区间。

    3.9K30
    领券