首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

玩转数据处理120题|R语言版本

#openxlsx::read.xlsxdetectDates参数只能识别日期 #as.Data转换该后时间数据丢失,只有日期 #故先把excel文件转存为csv后用readr包读取 # 该方法不理想...减去之前生成随机数列 难度:⭐⭐ R解法 df % mutate(new = salary - `0`) 45 缺失值处理 题目:检查数据是否含有任何缺失值 难度:⭐⭐⭐ R解法...)) %>% dplyr::rename(`0` = "seq(0, 99, 5)") 84 数据创建 题目:NumPy数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个指定分布...:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName, salary两 R语言解法 #一步读取文件指定用readr包或者原生函数都没办法 #如果文件特别大又不想全部再选指定可以用如下办法...文件读取指定数据 难度:⭐⭐ 备注 数据2读取数据并在读取数据时将薪资大于10000为改为高 R语言解法 library(readr) df2 <- read_csv('数据2.csv')

8.8K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」数据操作(五):dplyr 介绍与数据过滤

    在对数据进行可视化之前我们往往需要进行数据转换以得到可视化所需要数据内容与格式。这里我们使用dplyr包操作2013年纽约市航班起飞数据集(2013)。...准备 这部分我们聚焦于如何使用dplyr包,除ggplot2另一个tidyverse核心成员。我们将使用nyclights13数据包解释关键概念并使用ggplot2帮助理解数据。...,这里适配地显示了在一个屏幕前几行和所有的(我们可以使用View(flights)在Rstudio查看数据集所有信息。...它们描述了每个变量类型: int代表整数 dbl代表浮点数或者实数 chr代表字符向量或者字符串 dttm代表日期-时间 还有其他三种数据类型在本部分不会使用到,但后续我们会接触: lgl代表逻辑向量...() 这些函数都可以通过group_by()衔接起来,该函数改变上述每个函数作用域,操作整个数据集到按操作。

    2.5K11

    重大事件后,股价将何去何从?(附代码)

    提供一系列股票代码和回测时间间隔,这个函数会返回一个个股报告日期数据集。以下是另一使用Apple例子: ?...2、第三个参数明确了合并表格之前哪一要对齐(股票)。 3、第四和第五个参数明确了哪些可以完成与最近连结(日期)。...我们pandas导入BDay以帮助我们过滤出交易日,并使用pivot_table来将每个股票日期成组,我们以前用groupby 函数来组成组,这是处理数据另一个方法。...为了达到这个目的,我们将再一次使用merge_asof,这一次是为了找出事件发生后最近报告日期。 ?...对于大部分价格变动来说,特别是除了股价上升幅度小于等于5%之外每个,股价成功进入了金叉股票在接下来二十天里比一般情况表现得更好。

    1.6K30

    玩转数据处理120题|Pandas&R

    #openxlsx::read.xlsxdetectDates参数只能识别日期 #as.Data转换该后时间数据丢失,只有日期 #故先把excel文件转存为csv后用readr包读取 # 该方法不理想...(df) 28 数据整理 题目:新增一根据salary将数据分为三 难度:⭐⭐⭐⭐ 输入 期望输出 ?...salary - `0`) 45 缺失值处理 题目:检查数据是否含有任何缺失值 难度:⭐⭐⭐ Python解法 df.isnull().values.any() # False R解法 # 这个包结果呈现非常有趣...dist(rbind(df$col1,df$col2)) # 1 # 2 197.0102 101 数据读取 题目:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName...文件读取指定数据 难度:⭐⭐ 备注 数据2读取数据并在读取数据时将薪资大于10000为改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents

    6.1K41

    手把手教你用 R 语言分析歌词

    帕雷莱斯(纽约时报) 在本教程,该系列第一部分,你将会使用整洁文本框架在一歌词上使用文本挖掘技术。整洁数据集有一种特定结构,其中每个变量是一每个观察是一行,每个观察单元是一个表。...在另一个教程,第三部分,你将会使用探索性结果来预测一首歌曲发布时间,更有趣是,预测一首歌是否会基于它歌词登入 Billboard 排行榜。...单词频率:每首歌单词数量 单词长度:文本每个单词平均长度 词汇多样性:在文本不单词数量(歌曲词汇) 词汇密度:不同单词数量除以所有单词总数(字词重叠) 整洁文本格式 分析之前,你需要把歌词分解为一个个单词...接下来,使用 dplyr filter() 函数和 %in% 操作符来删除之前定义不想要单词。然后使用 distinct() 来去掉重复单词。最后,你可以删除所有少于 4 个字符单词。...显而易见:爱,时间和女孩是历久弥新词汇。但是识别流行词汇到底多容易呢?一个世纪就会轮换流行词汇是否为事实?能否简单认为上述词汇在歌曲是高度重复呢?词频是否识别歌曲主题依据呢?

    1.8K30

    如何以正确方法做数据建模?

    实体具有描述特定属性属性。在数据分析,实体通常被具体化为维度表,每个属性都是一个或字段。 事实表包含用于汇总和聚合度量值数字,以及与维度表相关。...你将注意到,每个维度表到事实表关系是一对多,并在一个方向上过滤记录,如关系行上箭头所示。例如,“客户信息表”与“在线销售”之间关系基于这两个表“客户Key”。...接下来,将使用以下步骤分解流程: 将详细原子数据加载到维度结构 围绕业务流程构建维度模型 确保每个事实表都有一个关联日期维度表 确保单个事实表所有事实具有相同粒度或详细程度 解析事实表多对多关系...为此,必须有一个日期维度表,其中包含一段时间内连续日期记录。我们可能需要从过去五年到今年年底所有日期日期维度是角色扮演维度中最常见示例,但在查看更多日期示例之前,让我们先看看另一个场景。...每个日期表,只有在需要灵活地使用DAX时间序列函数或使用日期部分字段(如年、季度或月)执行比较时,才需要单独日期维度表,否则不需要单独创建日期表。

    3.2K10

    使用R或者Python编程语言完成Excel基础操作

    应用样式:使用“开始”选项卡“样式”快速应用预设单元格样式。 11. 数据导入与导出 导入外部数据:使用“数据”选项卡文本/CSV”或“其他源”导入数据。...错误检查:使用Excel错误检查功能识别和修复常见错误。 函数库 使用Excel函数库:利用Excel提供大量预定义函数进行复杂数据处理。...目标 找出每个商店每月总销售额,并按商店和日期排序。...通过dplyr和tidyr包,我们可以轻松地对数据进行复杂操作。 在R语言中,即使不使用dplyr和tidyr这样现代包,也可以使用基础包函数来完成数据操作。...目标 找出每个商店每月总销售额,并按商店和日期排序。

    21710

    那些培训师都不曾告诉你关于Excel图表秘密~

    另一种则是在已经 完成默认图表选择菜单中点击行列数据变换。 ? 我使用同一数据源原始维度和转之后维度分别插入了默认簇状柱形图。结果如下。 ?...以上图示是一个呈现公司维度指标,这种维度在数据库中非常常见,可能是日期细分维度、也可鞥是地区细分维度。...因为首列也成了一个特殊公司(日期则成了该特殊公司另一个维度不同水平指标)。 ?...效率上来说,自然是其他 工具所使用数据源(即一维表或者说长数据)效率更高一些,Excel将每一个分类都视作一个字段(典型二维表风格),其他工具是通过将分类序列进行堆栈操作,聚合成一个包含类别变量...(想象一下如果有一千个分类,你难倒要在Excel里面列出1001个字段吗,使用二维表仍然是三个字段,公司名称、日期,指标)。

    1.9K80

    《DAX进阶指南》-第6章 动态可视化

    此处,还可以使用其他DAX函数,如SELECTEDVALUE,它检测是否只选择了一个值。但是,你仍应使用Code,以避免在有人决定更改描述时必须更改DAX代码。...在 fSales 表,我们有三个日期:Invoice Date ,Order Date 和 DeliveryDate 每个都与日期表有关系。...滚动总选项需要格外小心,因为我们需要从另一个参考日期展开。每个选项逻辑不同,不是调用通用[12 mth sales]度量值。...每个CALCULATE函数现在都有两个筛选器参数:一个提供具有正确参考日期滚动总周期,另一个提供正确关系,代码如下。...国家/地区,城市表。 零售类型,客户表,产品表。 这些所有值都需要位于单个,才能在视觉对象中使用它们。为此,我们将创建一个包含两辅助表。

    5.6K50

    Power Query 真经 - 第 5 章 - 平面文件导入数据

    数据点是否由单个字符、一字符或一致宽度分隔。 一个完整记录和另一个完整记录是由什么字符或字符分隔每个单独数据单元数据类型是什么。...【注意】 问问自己,是否曾经在 Excel 打开一个 “CSV” 或 “文本” 文件,发现其中一半日期是正确,而另一半则显示为文本?...大家开玩笑说,有两种类型 IT 专家:一种是自豪爱国者,他们将每个日期设置为【dd/MM/yy】,另一种是放弃本国标准,将默认设置为【美国 (英语)】和【MM/dd/yy】。...图 5-4 导入带有分隔符文件到 Power Query 编辑器 【注意】 请记住,Power Query 会尝试解析数据类型,使用【控制面板】【区域】设置来识别这些数据元素。...要把它分成几个部分,需要考虑到一件事是,不知道是否有供应商在他们公司名称中使用了连字符,所以不希望在分割时过于激进。 右击合并后(“已合并” ),【拆分列】【按分隔符】。

    5.2K20

    【22】进大厂必须掌握面试题-30个Informatica面试

    在聚合器转换,按关键字分组并添加新端口。将其称为count_rec即可对键进行计数。 从上一步将路由器连接到聚合器。在路由器,分为两:一称为“原始”,另一称为“重复”。...例如,日期维度可用于“销售日期”,“交货日期”或“雇用日期”。 24.什么是事实表?解释各种事实。 星型模式集中表称为事实表。事实表通常包含两种类型。...然后,将其余源发送到一个路由器转换。 ? 在路由器创建两个,并给出如下条件: ? 对于新记录,我们必须生成新customer_id。为此,请使用一个序列生成器,并将下一连接到表达式。...由于另一个转换调用了未连接查询,因此我们无法使用“未连接查询”转换返回多个。 但是,有一个窍门。我们可以使用SQL重写并连接需要返回。...当我们可以另一个转换查找时,我们需要使用子字符串再次分隔。 作为一种情况,我们采用一种来源,其中包含Customer_id和Order_id。 资源: ?

    6.7K40

    手把手教你R语言方差分析ANOVA

    ()等函数)或进行变量选择(使用子集选择或dplyrselect()函数)。...(变量水平数减1)和残差自由度(观察总数减1和自变量水平数减1); Sum Sq显示平方和(即均值与总体均值之间总变化)。...;Mean Sq是平方和平均值,通过将平方和除以每个参数自由度来计算;F value是F检验检验统计量。这是每个自变量均方除以残差均方。...F值越大,自变量引起变化越有可能是真实,而不是偶然; Pr(>F)是F统计量p值。这表明,如果均值之间没有差异原假设成立,那么检验中计算出F值发生概率大小。...另一种方法:t-test仅仅适合2比较,因此需要筛选data_ttest % dplyr::filter(D %in% c("B", "C")) #%>% #dplyr

    47110

    R语言数据处理:飞机航行距离与到达延误时间有什么关系??

    带着这个问题,我们将首先使用dplyr包对给出航班数据进行处理。...包,该软件包飞机航班数据将用于本文中dplyr包相关函数演示。...在处理数据之前,让我们再来回顾一下数据处理一般步骤: 选择子集、列名重命名、删除缺失数据、处理日期、数据类型转换、数据排序 接下来,就可以进行数据处理了: 2.数据处理 2.1 选择子集 所谓选择子集...2.3 删除缺失数据 我们采用dplyrfilter()函数,进行缺失数据删除。脚本输入代码: myFlights <- filter(myFlights,!...3.2 应用函数及组合结果 我们使用dplyrsummarize()函数,进行数据统计指标的获取及组合。计算出不同目的地平行航行距离以及平均延误时间。

    3.1K40

    快速入门Tableau系列 | Chapter08【数据分层、数据分组、数据集】

    25.2 分层结构创建与使用 分层结构展示: ①订单/人员->拖动形成集合 ? ②利润->行,订单日期->,选择整个视图,点击年(订单日期)可上/下钻 ?...下钻时候如果遇到无法识别的数据可以清除掉: ? 2、折线图 步骤: ①日期->(下拉->天),中心->行,平均呼入通话时长->行。(行可自定义下钻) ?...创建层级结构另一种方法:选择一个维度拖放到另一个维度上->重新命名->拖动添加 26、数据分组 不能用于创建字段,不能出现在公式。...26.1 数据创建及使用 步骤: ①创建:人工服务接听量->,班->行,交换行和 ?...7、拓展:数据集可以进行字段计算 27.3 使用集做对比分析 步骤: 利润->,卖情怀产品->行,->在集内显示成员,显示标记标签 ?

    1.8K20

    PHP String、Array、Object、Date 常用方法小结

    money_format() 返回格式化为货币字符串字符串。 nl_langinfo() 返回特定本地信息。 nl2br() 在字符串每个新行之前插入 HTML 换行符。...strcspn() 返回在找到某些指定字符任何部分之前,在字符串查找字符数。 strip_tags() 剥去字符串 HTML 和 PHP 标签。...strpbrk() 在字符串查找一字符任何一个字符。 strpos() 返回字符串在另一字符串第一次出现位置(对大小写敏感)。 strrchr() 查找字符串在另一个字符串中最后一次出现。...array_intersect_ukey() 比较数组,返回交集(只比较键名,使用用户自定义键名比较函数)。 array_key_exists() 检查指定键名是否存在于数组。...end() 将数组内部指针指向最后一个元素。 extract() 数组中将变量导入到当前符号表。 in_array() 检查数组是否存在指定值。 key() 关联数组取得键名。

    21510

    MIMIC-IV表结构详解(一)

    这是一个人工生成标识符,它对合理连续护理事件进行分组。2、日期和时间:在数据库存储日期和时间使用以下两个后缀之一存储:time或date....这意味着chartdate测量值将始终具有 00:00:00 具有小时、分钟和秒值。这并不意味着它是在午夜记录:它表明我们没有确切时间,只有日期。...如果患者在锚年超过89岁,则该锚年龄已被设置为91岁(即所有89岁以上患者已被分组为一个值为91单一,而不管他们实际年龄是什么)。死亡日期可以在病人表 dod 中找到。...如果死者死于2151-01-01或之前,并且被记录在州或医院死亡记录,那么dod中将包含不明死亡日期。如果个人在最后一次出院后存活至少一年,那么国防部将为 NULL 值。...transfertime:转诊时间,指患者从一个服务部门转到另一个服务部门时间。prev_service:之前服务部门,指患者转诊前所在服务部门。

    1.7K10

    我在GitHub 黑市买“水军”:一万颗star只要4000多元,人人都能“一夜爆火”

    注:检测工作,经常会将机器学习与启发式方法结合使用识别恶意行为者,本次研究最终采用了启发式检测思路。 在买下假 star 之后,这些假 star 又可以分成两类: 一眼为假。...聚类直觉 Dagster 团队最终选择了无监督聚类技术,相当于是为每个账户都构建一特征。 照理来说,正常用户特征应该比较分散,就是说其每项特征都比较独特,不会遵循某个大聚类整体趋势。...如果某个账户每月有几天会使用 GitHub,而且具体日期另一个账户完全相同,甚至连分享活动内容都差不多,那就表明这两个账户很可能是由相同底层脚本在控制。...但 Dagster 可以使用无监督聚类技术自动识别出新可疑代码仓库,再根据其是否存在、存在多少可疑交互来判断哪些账户确系伪造。...对于 GitHub Archive 分析,团队使用另一种略有不同方法来识别 GitHub API 分析“低活动”可疑账户。

    95620

    翻译|给数据科学家10个提示和技巧Vol.1

    该博客是由一群数据科学家运营,专注于讲解在各种领域如何运用大数据技术(机器学习和人工智能到业务领域)。 1 引言 这一系列对数据科学世界中常见任务提供了一些代码作为参考。...只需在by添加,这些称之为“键”,比如by = c("x1" = "x2", "y1" = "y2") ,结果如下所示: library(dplyr) set.seed(5) df1 <- tibble...for循环在R存储模型 假设我们想对鸢尾花数据集中每个物种分别构建不同回归模型,可以使用以下两种不同方法: 用一个列表存储模型 my_models<-list() for (s in unique...,如下所示: colnames(df)[max.col(df,ties.method="random")] [1] "V1" "V2" "V2" "V1" 2.5 生成随机日期 可以使用均匀分布特定范围.../usr/bin/python3 在许多.py文件,脚本顶部可能出现shebang行。它作用是设置解释器位置。通过在脚本顶部添加#!

    46940
    领券