首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

「R」数据操作(三):高效的data.table

接「R」数据操作(一)和「R」数据操作(二) 使用data.table包操作数据 data.table包提供了一个加强版的data.frame,它运行效率极高,而且能够处理适合内存的大数据集,它使用[]...例如使用id和date定位toy_tests中的记录: setkey(toy_tests, id, date) 现在提供key中的两个元素就可以获取记录了 toy_tests[....对数据进行分组汇总 by是data.table中另一个重要参数(即方括号内的第3个参数),它可以将数据按照by值进行分组,并对分组计算第2个参数。...中,by所对应的组合中的值是唯一的,虽然实现了目标,但结果中没有设置键: key(type_class_test0) #> NULL 这种情况下,我们可以使用keyby来确保结果的data.table自动将...,每条记录了钻石的10个属性,现在我们队cut列中的每种切割类型都你拟合一个线性回归模型,由此观察每种切割类型中carat与depth是如何反映log(price)的信息。

6.4K20

Mysql按条件计数的几种方法

最近在给某网站的后台添加一系列的统计功能,遇到很多需要按条件计数的情况。尝试了几种方法,下面简要记录,供大家参考。 问题描述 为使讨论简单易懂,我将问题稍作简化,去掉诸多的背景。...数据库的结构如下: 字段 解释 id 皇子的唯一编号 mother 皇子母亲的唯一编号 皇帝把妃子分成了两个等级,天宫娘娘(编号小于25)和地宫娘娘(编号大于等于25),他想知道天宫娘娘们和地宫娘娘们的生育能力孰强孰弱...,该字段的值就是该条件表达式的值,因此,对应我们的例子,type = 1 也就是表示 mother > 24 的值为1,因此,第二行中的数字代表地宫娘娘们所生的皇子数。...方法2:使用嵌套的SELECT 使用嵌套的SELECT也可以达到目的,在每个SELECT子句中统计一个条件下的数据,然后用一个主SELECT把这些统计数据整合起来。...缺点就是语句比较长,对语句长度有洁癖的同学可能会比较不舒服。 总结 对于确定分类的按条件计数,可以尽量不用GROUP BY,从而避免排序动作,加速Query的执行。

4.6K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Excel公式技巧105:带条件的部分匹配计数

    引言:本文学习整理自myspreadsheetlab.com,很好的一个应用示例,特辑录于此,也供有兴趣的朋友参考。...示例数据如下图1所示,工作表“ProductData”中,列A中放置Product Name(产品名称),列B是州名(State)。...图1 在工作表“Solutions”中,单元格B5中是要搜索的State(州名),单元格C5中是要在Product Name(产品名)中搜索的单词,要统计两者都满足的条目数,如下图2所示。...公式中,IF函数先筛选出State名为B5中值的Product Data;接着,SEARCH函数在筛选出的ProductData中查找C5中的值,如果找到则返回一个数字;传递给ISNUMBER函数,得到一组由...TRUE/FALSE值组成的数组;N函数将其转换成1/0组成的数组,其中的1就是满足条件的条目,将它们求和得到满足条件的所有条目数。

    5.5K60

    R语言数据库中如何多条件排序

    R语言中,如何对数据框的数据根据某个条件进行排序呢?如何根据多条件进行排序呢,类似Excel中的排序效果: ? 1....示例数据 R语言中鸢尾花的数据,数据有五列: > names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"...使用R中自带函数order 「第一列升序,然后是第三列升序」 这里的iris[,1]是数据的第一列 r1 = iris[order(iris[,1],iris[3]),] head(r1) 结果: >...使用dplyr的arrange R包dplyr的函数arrange,更简单,更简洁: # 多条件排序:使用dplyr::arrange library(dplyr) data("iris") head(...然后是第三列升序 arrange(iris,iris[,1],iris[,3]) # 第一列升序,然后是第三列降序 arrange(iris,iris[,1],-iris[,3]) 结果: > # 多条件排序

    1.7K40

    关于data.table中i, j, by都为数字的理解

    以mtcars这个R自带的数据集为例,我们知道mtcars[1]的运行结果,是选择这个数据集的第一行,结果如下: ? mtcars[1,1]的运行结果,是选择第一行第一列的元素,结果如下: ?...首先,我们单独看i只有一个1的情况下是什么运行结果,为了让运行出来的代码被认定是data.table的格式,我们在j中加入.SD(不清楚.SD用途的小伙伴可以查看data.table的manual,或者查看笔者上一篇推送用...可见,在DT的i中输入一个数字和用一般的提取符号`[`只输入一个数字的结果完全一样,就是提取这个数据集中的某一行。...最后,我们将j中的1添加进去,代码与结果如下: mtcars[1, 1, 1] ?...结 果分析 从这样一段拆解当中,我们大致就可以明白为什么会出现这样的结果了,整体的运行思路就是:首先选出了第一行,而后在by中以一个变量名默认为NA的变量为基准,最后在j中生成了一个默认变量名为V1的变量

    1.3K30

    Oracle中唯一约束和唯一索引的区别

    在使用TOAD来操作Oracle数据库时,会注意到创建约束时有Primary Key、Check、Unique和Foreign Key四种类型的约束,这与SQL Server中的约束没有什么区别,这里的...Check约束除了用于一般的Check约束外,在Oracle中也用于非空约束的实现。...除了约束,还有另外一个概念是索引,在TOAD中创建索引的界面如下: 我们可以注意到在唯一性组中有三个选项:不唯一、唯一和主键。...创建唯一约束与创建唯一索引有所不同: 创建唯一约束会在Oracle中创建一个Constraint,同时也会创建一个该约束对应的唯一索引。...在删除时这两者也有一定的区别,删除唯一约束时可以只删除约束而不删除对应的索引,所以对于的列还是必须唯一的,而删除了唯一索引的话就可以插入不唯一的值。

    1.3K10

    Excel公式练习:根据条件获取唯一的第n个值

    引言:本文的练习整理自chandoo.org。多一些练习,想想自己会怎么解决这个问题,看看别人又是怎样解决的,这样能够快速提高Excel公式编写水平。...本次的练习是:编写一个公式,用于显示数据(Data)列中与当前选定查找项目匹配的项目(Item)列的第n个最大的唯一值。 示例数据如下图1所示。...单元格D2、E2中的数据可以输入,公式根据其数据返回相应的结果。根据不同的输入数据,公式的结果应该如下图2所示。 图2 规则: 1.公式中不能使用整列引用。 2.不能使用中间公式。...4.无论数据放置在工作表中的任何地方,公式都能正常运行。 5.除了规定的名称“i”“d”“n”“l”外,不能有其它硬编码引用。 请写下你的公式。 解决方案 公式1:数组公式。...=LARGE((MATCH(l&d,i&d,)=ROW(i)-MIN(ROW(i)-1))*(i=l)*d,n) …… 上面列出的大多数公式都没有进行详细的解析,有兴趣的朋友可以参照前面文章给出的方法逐个研究

    2.2K30

    less中的条件判断

    经过上一篇 less中的继承 的讲解之后,本章节开展的内容为 less 中的条件判断,less 中可以通过 when 给混合添加执行限定条件,只有条件满足 (为真) 才会执行混合中的代码,首先想要看这个条件判断首先需要有混合才可以...,如下div { width: 100px; height: 100px; background: red;}现在有了混合,我们就可以通过混合来看看条件限定了,通过如上所说通过 when 来进行限定那么如何编写呢...,在混合的小括号后面写 when 然后在编写一个小括号,在该小括号当中编写限定条件即可如下.size(@width, @height) when (@width = 100px) { width: @...我故意给了个 50 所以不会执行,可以通过编译之后的代码查看结果图片when 表达式中可以使用比较运算符 (>,=,条件判断,如上已经介绍过了比较运算符了,...,只要宽度或者高度其中一个满足条件即可执行混合中的代码,(), () 相当于 JS 中的 ||,()and() 相当于 JS 中的 &&图片看完了逻辑运算符紧接着在看内置函数来进行判断,如下.size(

    64370

    Python中的条件语句

    Python中的条件语句是通过一条或多条语句的执行结果(True或者False)来决定要执行的代码块。主要通过if关键字实现,条件中的其他分支用else。...python之后,python中针对条件判断语句的执行语法如下: if 判断条件成立: 执行语句…… else: 执行语句…… 多个if条件使用的场景: if 条件1成立: 执行语句...1 elif 条件2成立: 执行语句2 else: 执行语句3 说明:if后面的条件在python中只要是任何非0非空的值,都会认为是True,即认为条件成立。...每个条件后面要使用冒号(:),表示接下来是满足条件后要执行的语句块,使用缩进来划分语句块,相同缩进数的语句在一起组成一个语句块。...那么,上面的学生分数的案例,在python中编写的话,可以写成下面的格式: score = int(input("请输入你的成绩:")) if score < 60: print("你的成绩不及格

    3.7K20

    Excel公式练习:根据条件获取唯一的第n个值(续)

    本次的练习是:在《Excel公式练习:根据条件获取唯一的第n个值》中,编写了一个公式用于显示数据(Data)列中与当前选定查找项目匹配的项目(Item)列的第n个最大的唯一值。...然而,如果n是6,而我们只有3个唯一值,那么编写的公式应该返回0。 这里,你的任务是修改这些公式,以便在上面所说的情况下,返回最小的非零唯一值。 示例数据如下图1所示。...单元格D2、E2中的数据可以输入,公式根据其数据返回相应的结果。根据不同的输入数据,公式的结果应该如下图2所示。 图2 规则: 1.公式中不能使用整列引用。 2.不能使用中间公式。...4.无论数据放置在工作表中的任何地方,公式都能正常运行。 5.除了规定的名称“i”“d”“n”“l”外,不能有其它硬编码引用。 请写下你的公式。 解决方案 公式1:数组公式。...=MIN(IFERROR(LARGE(IF(FREQUENCY(IF(i=l,d),d),d),ROW(OFFSET(A1,,,n))),"")) …… 上面列出的大多数公式都没有进行详细的解析,有兴趣的朋友可以参照前面文章给出的方法逐个研究

    1.9K10

    资源 | 神经网络目标计数概述:通过Faster R-CNN实现当前最佳的目标计数

    选自SoftwareMill 机器之心编译 作者:Krzysztof Grajek 参与:黄小天 在机器学习中,精确地计数给定图像或视频帧中的目标实例是很困难的一个问题。...下面,本文将对神经网络目标计数领域的不同方法、一般问题、挑战及最新解决方案的作一个总体描述。文末,现有的 Faster R-CNN 网络模型作为概念证明将被用于计数给定视频中街道上的目标。 挑战 ?...(其中大多数目标相互重叠,透视使得远距离中存在很小的目标),将大不同于家庭照片中的目标计数方法。...同样,这一在单张照片上计数目标的方法也不同于在视频中实时计数目标的方法。 简单的需求,简单的方案 在本文中我将尝试使用样本视频(其中多个目标同时可见,但并不过于拥挤)解决街道上的目标计数问题。...下面,我们选择了在被描述的 PoC 样本视频中检测和计数目标实例。 概念证明 为了解决问题,我们将在一个支持 GPU 的 AWS 实例上使用上述带有 Keras 的 Faster R-CNN 模型。

    1.5K130

    R语言基因组数据分析可能会用到的data.table函数整理

    版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。...因此,在对大数据处理上,使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...,默认Windows是"\r\n",其它的是"\n"; na,na 值的表示,默认""; dec 小数点的表示,默认"...by ]语法做 但是如果我要将上述DT中的v3作为一个影响因素,作为tag,先按v1、v2汇总,再将对应的v4值分为v3=1和v3=2两类,查看v1、v2取值相同v3不同对应v4的情况,这个时候用dcast...)的结果 最后,写完这篇博客,timetaken断断续续大约一星期 参考文献 data.table manual: https://cran.r-project.org/web/packages

    3.4K10

    R练习50题 - 第一期

    和date组合决定了一个唯一的观测。...例如股票600128,如果它一共有100天的观测,那么我们会出现100个重复结果。为了去重,我们需要借助于data.table中的unique函数。 我们希望最终的输出是一个字符串向量: ?...unique:找出symbol中不重复的值。 在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。...其次,对于每个组,我们需要生成两个统计数字:一个统计上涨的个数,一个统计下跌的个数。最终结果如下: ? 可以看到,对于每个date,它都对应了两个观测,一个是“UP”,一个是“DOWN”。...它是data.table内置函数之一,和unique几乎执行相同的操作,唯一不同的是,unique返回的是不重复的item(是一个向量),而uniqueN返回的是不重复的数量(是一个数字)。

    2.5K40

    数据库中on条件与where条件的区别

    数据库中on条件与where条件的区别 有需要互关的小伙伴,关注一下,有关必回关,争取今年认证早日拿到博客专家 标签:数据库 mysql> SELECT e.empno,ename,e.deptno,...-- 因为e.is_deleted = 0再过滤条件中,所以不会出现再结果集中 mysql> SELECT e.empno,ename,e.deptno as edeptno,e.is_deleted...1 | 开发部 | +-------+-------+---------+------------+---------+--------+ 执行join子句 left join 会把左表中有on过滤后的临时表中没有的添加进来...,右表用null填充 right会把右表中有on过滤后的临时表中没有的添加进来,左表用null填充 故将王五添加进来,并且右表填充null +-------+-------+---------+----...0 | 1 | 开发部 | +-------+-------+---------+------------+---------+--------+ 执行join子句 将被on条件过滤掉的李四和王五加回来

    8610

    【Python】Python中的条件语句

    条件语句 导读 大家好,很高兴又和大家见面啦!!! 在上一篇内容中我们介绍了Python中运算符与注释的相关内容。...Python中的基础语法主要有条件语句、循环语句、函数等内容,接下来我们会通过三个篇章分别介绍Python中的这三种基础语法。 在今天的内容中,我们将会介绍第一种基础语法——条件语句。...)来决定执行的代码块,如下所示: 上面所示的流程图中展现的是有两条分支的条件语句,当然在很多情况下条件语句不止两条分支,会存在三条及以上的分支。...没错它就是C/C++中的else if的一个组合关键字,它是用于多分支语句中进行条件判断的关键字。...语句块的执行条件不变,仍然是值为真就执行语句块中的内容,值为假则绕过分支语句执行后续内容; 语句块则是由缩进来表示,引导词与语句块的缩进级别至少相差1。

    9210
    领券