首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R练习50题 - 第一期

    共同组成“面板数据”在工作几乎随处可见。...例如股票600128,如果它一共有100天观测,那么我们会出现100个重复结果。为了去重,我们需要借助于data.tableunique函数。 我们希望最终输出是一个字符串向量: ?...str_detect(symbol, "8")含义为:对于symbol向量,判断其是否含有字符8,如果有,则为True,否则Faulse。 unique:找出symbol不重复值。...在data.table语法,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。 练习2:每天上涨和下跌股票各有多少?...它是data.table内置函数之一,和unique几乎执行相同操作,唯一不同是,unique返回是不重复item(是一个向量),而uniqueN返回是不重复数量(是一个数字)。

    2.5K40

    十、文件读写

    输出文件export surv=read.table("import/xxx.txt") save(x,file="Rdata/xxx.Rdata") (2)在不同工作目录下创建不同文件夹,保存不同步骤需要文件...what = what, sep = sep, quote = quote, dec = dec, : line 2 did not have 5 elements 报错原因:表格不规则,有一部分位置是空着...导出为csv write.csv(soft,file = "soft.csv") ###右上角环境刚好出现了一个soft.csv文件,并且刚好与数据框soft内容一样, 6).soft保存为...###小技巧: 图片 # data.table 读取任何形式文件 ,包括问题文件 soft = data.table::fread("soft.txt",data.table = F) #正常文件...但是y中有字符型向量,有数值型向量,所以本身文件有问题,平时自己处理文件时候直接输出为数据框、列表都可以。不保存为矩阵。

    1.8K40

    For循环与向量化(Vectorization)

    Vectorized(向量化) 根据Hadley Wickham在其著作Advanced R第一章所涉及到内容,R最底层数据结构只有两种:向量(vector)和列表(list),其他所有的数据格式都是通过这两种最基本数据结构衍化而来...由于我们需要做向量某一个元素与前一个元素处理结果,那么只需要将元素往后进行移位,与原来向量进行一一对应处理即可,这样便达到了以向量进行处理模式。...更底层For循环 R语言本身For循环效率相对低下,究其原因在于R作为高级语言,循环本身需要先进行编译,再放入底层进行处理。更为直接做法,如果想提升效率,则可以直接循环放入底层进行运行。...通过运行结果可以发现,Rcpp调用底层循环略优于data.table向量化,运行时间在0.03s左右。...利用data.table进行数据操作有着比R本身向量化更好效率表现,如果自身对效率要求更高,可以利用更底层语言接口进行编写。 最后还有一点需要注意:向量化并不能解决一切问题。

    1.8K30

    【技巧】如何快速按照日期分组

    然而这种做法特别麻烦,因为我们常常要尝试多种不同分类长度,很难事先就一次性创建好用于分类变量。...本期大猫教大家使用 data.table keyby语句完成上述任务。...使用 data.table好处是: 不需要事先创建分类变量,啥时想分类了,直接分就可以(group on the fly) 速度特别、特别快! 代码非常、非常简洁!(也就十几个字符!)...按照“是否为周三”进行分类 如果我们想把样本分成两组,一组是周三(True),一组是非周三(False),则只要使用 wday(date)==3来生成一列值为 True或者 False向量就行。...按照“每个三天”分类 为了按照任意间隔进行分类,我们需要用到 data.table ceiling_date函数。

    2.4K30

    R语言:data.table语句批量生成变量

    写在前面 本期依然由村长为大家供稿,只为填上一期最后挖坑,话不多说进入正题。 问题提出 在上一期,还记得我们留下那个彩蛋吗?...我们在对多列标准进行筛选时,在之前我们还进行了一步非常重要提取,也就是每一列观察值提取出某一特定字段,而后生成一系列变量,这些变量观测值只可能存在三种情况:醛固酮、继发性醛固酮或者NA。...:= 右边 关于 ':= lapply' 用法,在这里小编不再赘述,如果大家对此不是很熟悉可以看这一期公众号:用data.table语句批量处理变量。...在这里通过链接推送lapply使用原理,再加上stringr包str_match这个函数使用,截取出诊断结果中出现过继发性醛固酮或者醛固酮,没有出现过自动记为NA。...:=’ 左边格式问题: ':=' 左边格式应该是一个向量,一个带有需要被处理变量字符格式向量,这一点从colnames这个函数使用可以得知。

    1.2K20
    领券