首页
学习
活动
专区
圈层
工具
发布

「Workshop」第二期:程序控制与数据操作流

:: lag lead 聚合 dplyr:: cumall cumany cummax cummean cummin cumprod cumsum 排序 dplyr:: cume_dist dense_rank...min_rank ntile percent_rank row_number 其他 dplyr:: between case_when coalesce if_else na_if pmax pmin...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致,也可以使用 tidyverse 处理 整数索引 逻辑索引 命名索引 进一步的学习参考小抄、...正则表达式与字符串处理:base 与 stringr 列表处理与迭代计算:purrr 统计建模:stats 与 broom 绘图:graphics 与 ggplot2 函数编程:apply家族和purrr

2.2K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近,但mutate可以使用你刚刚创建的column...data.table包 dplyr已经可以满足我们数据分析工作中大部分的需求,后来该包的作者又开发了一个炫酷吊炸天的包“data.table” 如果你的日常处理数据在几万到十几万行,那么用dplyr...官网上面有关于data.table包对于dplyr的提升和改进: ?...作为课代表的我来帮大家简单的总结一下: 我们都知道R有个令人诟病的缺点就是跑起来耗内存,data.table相对于dplyr 更快、更节省内存了!

    3K70

    100个GEO基因表达芯片或转录组数据处理27 GSE83456

    包,不用写双引号,并且不在屏幕上打印包的加载信息Canton::using(using, tidyverse,lumi,lumiHumanIDMapping, GEOquery, magrittr, data.table...处理表型数据这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)pdata % dplyr...::mutate( Sample = geo_accession, Group = case_when(`disease state:ch1`=='HC'~'HC',...后面每两列对应一个样本,是荧光信号强度和pvalue最后保存原始数据到tmp.txt文件中(参考生信技能树代码)a data.table...ProbeID = probe_id, Feature = symbol) # pipe", "bioc", "soft"lumi处理原始数据并提取标准化后的表达矩阵conflicts_prefer(data.table

    31100

    数据清洗与管理之dplyr、tidyr

    本期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 | 第三讲 本期目录 0 二维数组行列引用 1 创建新变量 2 变量重新编码 3 变量重新命名 4...缺失值 5 dplyr包的下述五个函数用法 5.1 筛选: filter 5.2 排列: arrange 5.3 选择: select 5.4 变形: mutate 5.5 汇总: summarise...7 [2,] 3 8 [3,] 4 9 [4,] 5 10 attr(,"na.action") [1] 1 attr(,"class") [1] "omit" 5 dplyr...包的下述五个函数用法【高级数据管理包】 # install.packages("dplyr") library(dplyr) #使用datasets包中的mtcars数据集做演示,首先将过长的数据整理成友好的...-") widesep # person grade score #1 Alex 2 78 #2 Bob 3 89 #3 Cathy 4 88 dplyr

    2.3K40

    经验总结 | 最有效的R学习路径(一)

    ——Hadley Wickham ” 小伙伴们肯定有这样的经历:在写论文的过程中,绝大部分的时间都用来清理数据,例如剔除异常值、表与表之间的匹配与连接、数据分类汇总等,而最后用来跑回归的时间可能就只有十几秒左右...大猫在这里建议大家在以下两个包中选择: data.table vs. dplyr 简单而言,data.table和dplyr的功能类似,但是根据世界上最大的程序(同)员(性)交(交)流(友)网站stackoverflow...上的讨论,data.table在语法灵活性和performance上面更深一筹,dplyr则在易学性和SQL语句转换方面有独到之处。...注1:图中,Arun是data.table的coauthor,Hadley是dplyr的author。...大猫不建议去cousera.org上看R的相关教程,因为他们1)太基础;2)没有侧重介绍data.table或者dplyr的课程。

    1.3K20

    R数据科学整洁之道:使用dtplyr处理大文件

    其实,如果习惯了 tidyverse 系列工具,用 dtplyr 也是不错的,简单理解:dtplyr = dplyr + data.table dtplyr 将 dplyr 作为前端,data.table...作为后端,这样做的好处是显而易见的: 前端书写 dplyr 语法,简单、优雅 后端自动转换为 data.table 代码,提升速度 安装 install.packages("dtplyr") 使用...要使用 dtplyr,需要加载下列三个包: library(data.table) library(dtplyr) library(dplyr, warn.conflicts = FALSE) 然后使用...,dtplyr 通常没有 data.table 快,如果追求极致速度,那么应该直接使用 data.table。...总的来说,dplyr 易用,但速度慢,data.table 速度快,但易用性差一些,而 dtplyr 在两者之间搭起一个桥梁,最终的趋势或许是两者合二为一。

    77610
    领券