首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Day6 呦呦鹿鸣—学习R包

iris可知其为150×5的列表dplyr五个基础函数1.mutate(),新增列mutate(test, new = Sepal.Length * Sepal.Width)mutate(df, z =...(2)按列名筛选select(test, Petal.Length, Petal.Width)iris %>% select(Species, Sepal.Length)3.filter()筛选行/返回具有匹配条件的行可以按照某分类变量的值进行数据筛选..., test2, by = "x")满足两个条件:有相同变量名,相同变量名的列里有相同元素;2.左连left_join列表书写顺序决定了最终合成列表中列的顺序left_join(test1, test2...,每列数值的类型必须相同;以"by"的列为标准,补齐列表,空值为"NA"4.半连接:返回能够与y表匹配的x表所有记录semi_join交集表中test1部分的列semi_join(x = test1,...y = test2, by = 'x')5.反连接:返回无法与y表匹配的x表的所记录anti_jointest1中去除交叉部分的列表anti_join(x = test2, y = test1, by

17110

生信星球Day4 学习R包

今日学习内容:如何安装R包?.../p/861224f4251aoptions() 设置R运行过程中的一些选项设置options()$repos 查看使用install.packages安装时的默认镜像options()$BioC_mirror...查看使用bioconductor的默认镜像R最重要的两个配置文件: 一是.Renviron,能够设置R的环境变量; 二是.Rprofile,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动...() 新增列,(x,列名=相关数据)select() 筛选列,(x,列号或列名)filter() 筛选行,(x,列名==想要的行)需要逻辑判断arrange() 按某1列或某几列对整个表格进行排序...全连semi_join(x= ,y= ,by="某列") 半连接,返回能够与y表匹配的x表所有记录anti_join(x= ,y= ,by="某列") 反连接,返回无法与y表匹配的x表所有记录简单合并

21140
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    从零开始的异世界生信学习 R语言部分 06 R应用专题

    = T) ##某一个数据第一次出现视为不重复,之后出现的为重复 图片 2.mutate()数据新增列 # mutate,数据框新增一列,新增一列是两列数值的乘积 mutate(test, new =...list,使用下标循环,可以将每次循环的结果都保存到列表中 ## cbind 按列拼接 a = rnorm(10) b = 1:10 cbind(a,b) ##do.call() 函数是对列表 list...mutate(group = rep(c("control","treat"),each = 3)) ##给数据添加一列分组列 ##最终生成作图过程中间的转换的数据框dat 图片 pdat = dat...", ##新的列的名字 values_to = "count") ## 把原来列中的数值一一对应形成一个新的数值列'count' 图片 library(ggplot2...apply(test, 1, sum) ##对test数据框的每一行求和 图片 图片 ### 2.lapply(list, FUN, …) # 对列表/向量中的每个元素(向量)实施相同的操作

    2.5K30

    Fama French (FF) 三因子模型和CAPM模型分析股票市场投资组合风险收益可视化

    这篇文章的很大一部分内容涉及从FF网站导入数据,并对其进行整理,以用于我们的投资组合收益。我们将看到,处理数据在概念上很容易理解,但在实际操作中却很耗时。...数据被打包为 zip 文件,所以需要做的不仅仅是调用 read_csv()。使用tempfile() 基础 R 中的 函数来创建一个名为 temp. 这是我们将放置压缩文件的地方。...FF 日期与我们的投资组合日期匹配的因子数据。...FF 因子的对象,并且可以从编码的角度进行最简单的部分,也是我们的老板/同事/客户/投资者唯一关心的部分:建模和可视化....因此,市场因素在该模型中占主导地位,而其他两个因素的置信区间为零。 ---- 本文摘选《R语言Fama French (FF) 三因子模型和CAPM多因素扩展模型分析股票市场投资组合风险/收益可视化》

    3.9K30

    生信星球 学习小组Day6笔记--学习R包 高小能

    认识 R 包R包是多个函数的集合,具有详细的说明和示例。学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。 包的使用是一通百通的,我们以dplyr为例,讲一下R包。...安装和加载R包1.镜像设置为了保证我们可以自定义CRAN和Bioconductor的下载镜像,其实是可以在Rstudio中进行设置的,只需要运行这两行代码即可:# options函数就是设置R运行过程中的一些选项设置...图片加载library(dplyr)示例数据直接使用内置数据集iris的简化版:test mutate(),新增列mutate...(test, new = Sepal.Length * Sepal.Width)图片2.select(),按列筛选(1)按列号筛选图片(2)按列名筛选图片3.filter()筛选行图片4.arrange...(),按某1列或某几列对整个表格进行排序图片5.summarise():汇总图片dplyr两个实用技能管道操作 %>% (cmd/ctr + shift + M)count统计某列的unique值dplyr

    16700

    Day6 R包安装和学习

    使用一个包,是需要先安装再加载,才能使用包里的函数。以“dplyr”为例。...dplyr五个基础函数1.mutate(),新增列mutate(test, new = Sepal.Length * Sepal.Width)2.select(),按列筛选(1).按列号筛选(2).按列名筛选...+ M)2:count统计某列的unique值dplyr处理关系数据1.內连inner_join,取交集2.左连left_join3.全连full_join4.半连接:返回能够与y表匹配的x表所有记录...semi_join5.反连接:返回无法与y表匹配的x表的所记录anti_join6.简单合并在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同...,而bind_cols()函数则需要两个数据框有相同的行数4.函数和R包该怎么学习(1) 快速查看函数帮助文档(2)找R包介绍页面(搜)(3) Vignettes,就是作者写的网页版教程,不是每个R包都有的

    12310

    R tips:使用!!来增加dplyr的可操作性

    R中代码的运行过程 在介绍!!运算符之前,有必要先了解一下R中的代码是如何运行的。 在R console中输入一个代码,R就会返回代码的结果。...这个瞬间的过程其实需要两个步骤和三个阶段: 代码 --解析-> 语句 --执行-> 结果 输入的是文本代码(code),R会首先解析成语句(R称之为expression),expression在R中是一个树状结构...在mutate中完成新变量名的编程 假如想要在mutate中使用变量对新变量进行设置,其结果并不会如愿,比如,将新变量名var_name赋值为“gear_new",使用var_name进行mutate操作...,完成多个增添变量的操作,下述例子代表对vs am gear carb四列数据,各自加1后生成为新列,新列名字为原始名+“_new"。...也不局限于dplyr,它是R MetaProgram的一部分 比如对于ggstatplot包而言,它是一个统计及绘图的包,常规使用如下: ### 两种写法都可以 mtcars %>% ggstatsplot

    2.5K31

    Day6-学习dplyr_R包

    Day6-学习dplyr_R包加载包library(dplyr)示例数据直接使用内置数据集iris的简化版:test mutate(),新增列2.select(),按列筛选,列名列号都可以.select(数据框,列号/列名)3.filter()筛选行filter(数据框,列名==想筛选的值的行)4.arrange()...,按某1列或某几列对整个表格进行排序arrange(数据框, 排序的列名),desc从小到大排序参数5.summarise():汇总正在上传图片...dplyr两个实用技能1:管道操作 %>% (cmd.../ctr + shift + M)2:count统计某列的unique值dplyr处理关系数据1.內连inner_join,取交集2.左连left_join3.全连full_join4.半连接:返回能够与...y表匹配的x表所有记录semi_join5.反连接:返回无法与y表匹配的x表的所记录anti_join6.简单合并:bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

    11310

    csvtk:高效命令行版极简dplyr

    csvtk 本身支持多线程以及若干子命令,用起来会发现通常其速度和效率比在 python 和 R 中输入很多行代码都要高。...文本信息类 headers 打印首行(列名) dim 查看文件的行列数 ,和 R 中的 dim 类似 + summary 对所选列进行简单的描述性统计,如果是统计内容是数字,则类似于 R 中的 summary...head 查看文件开始若干行 concat 合并文件,类似于 cat 但是可以按照列名进行匹配合并 sample 按照比例对文本进行提取 cut 按照列选择,支持列数和列名,支持反选和模糊选择 + uniq...add-header 增加列名 del-header 删除列名 rename 对列重命名 rename2 支持正则表达式的列重命名 replace 通过正则表达式替换所选列对应的内容,支持捕获变量,内置特殊替换符号...+ mutate 对某一列进行正则表达处理增加新的一列 mutate2 对多列进行 awk 类似的字符和数学表达式处理,增加新列 + gather 类似于 dplyr 中的 gather() 函数,数据

    3.7K60

    UseGalaxy.cn生信云|零代码使用Tiverse优雅地处理数据集

    Dplyr Mutate create, modify, and delete columns mutate 函数用于添加新变量或修改现有变量,能够基于已有数据创建新的变量列,支持对数据框进行实时的变量操作和修改...Dplyr Rename columns rename 函数用于重命名数据框中的变量名,能够快速修改变量的名称,使得数据的列名更符合用户的需求和习惯。...Dplyr Select keep or drop columns select 函数用于选择数据框中的特定列,可以保留感兴趣的变量,并且能够根据列名、位置或条件表达式进行灵活的变量选择操作。...Tidyr Pivot Longer from wide pivot_longer 函数用于将宽格式数据转换为长格式数据,能够根据用户指定的列将数据框中的多个列整理成一对 “名-值” 对,便于进一步的分析和处理...Tidyr Pivot Wider from long pivot_wider 函数用于将长格式数据转换为宽格式数据,能够将数据框中的一列分成多个列,根据指定的列名进行展开,使得数据以更直观的宽格式形式呈现

    17220

    R语言数据分析利器data.table包 —— 数据框结构处理精讲

    比:=还快,通常和循环配合使用 至于这个操作究竟有多快,可以看一下(参照官方manual的命令),另外个人觉得最牛的三个函数是set(),fread,和fwrite fread fread(input...(y)] #返回y列,返回data.table DT[, sum(y)] #对y列求和 DT[, ....(sv=sum(v))] #对y列求和,输出sv列,列中的内容就是sum(v) DT[, ....(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和,并且结果按照x排序 DT[, sum(y)..., by=x][order(x)] #和上面一样,采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来,各组分别对定义的行中的

    5.9K20

    两个神奇的R包介绍,外加实用小抄

    小抄准备好 1.准备工作 准备好Rstudio 安装tydir:install.packages("tydir") 加载tydir:library(tydir) 2.key-value:键值对 键和值都是列名...新建一个数据框并赋值给bioplanet这个变量(赋值符号列名”=列值,这里列名要加双引号。这里涉及的几个给列填充数值的函数有 rep,重复,括号中填要重复的字符和重复次数。...这是一种组织表格数据的方式,提供了一种能够跨包使用的统一的数据格式。 有多统一? 每个变量(variable)占一列,每个情况(case,姑且这么翻译)和观测值(observation)占一行。...(正常来说列名不需要加‘’,大概是因为示例中这个列名是纯数字的缘故。) 其中,需合并的列名也可以列在最后,这样,key=和value=可以省略。...这是根据相同的列名进行合并,当在两个表格中列名不一样时,需要在括号内加 by=c("col1"="col2") 其中col1和2分别是在两个表格中的需合并的列名 semi_join,anti_join

    2.5K40

    pseudobulks单细胞差异基因分析

    rowSums(as.matrix(scRNA@assays$RNA@layers$counts[, kp])): 对选定的细胞列(不同组)中的基因表达矩阵进行行求和,得到每个基因在该样本中的总表达量。...这里需要思考一下,我们使用的kp,这里的kp其实代表的是bs中的ID,所以按照这个数据而言,分别是对CA组和NL组的数据的基因表达矩阵进行行求和。...第二行代码使用 unique 函数对刚才提取的数据进行去重操作。unique 函数会移除数据框中重复的行,因此生成的 phe 数据框会包含每个样本ID唯一对应的一行记录,即每个样本ID对应的组织类型。...接下来的group_list代码是匹配样本ID并提取对应的组织类型:names(bs): 这个部分提取的是之前创建的列表 bs 中的样本ID(样本的列名)。....]: 这里使用这些位置索引来从 phe 数据框中提取相应行的 tissue.type 列,最终得到的 group_list 是一个向量,包含了 bs 中样本ID对应的组织类型。

    35810

    玩转数据处理120题|R语言版本

    大家好,本文为R语言数据处理120题系列完整版本。作者精心挑选120道数据处理中相关操作以习题形式发布,一共涵盖了数据处理、计算、可视化等常用操作,并对部分题目给出了多种解法与注解。...题目:生成新的一列new为salary列减去之前生成随机数列 难度:⭐⭐ R解法 df % mutate(new = salary - `0`) 45 缺失值处理 题目:检查数据中是否含有任何缺失值...难度:⭐⭐ R语言解法 rowMeans(df) 97 数据计算 题目:对第二列计算移动平均值 难度:⭐⭐⭐ 备注 每次移动三个位置,不可以使用自定义函数 R语言解法 library(RcppRoll...:从CSV文件中读取指定数据 难度:⭐⭐ 备注 从数据1中的前10行中读取positionName, salary两列 R语言解法 #一步读取文件的指定列用readr包或者原生函数都没办法 #如果文件特别大又不想全部再选指定列可以用如下办法...难度:⭐⭐⭐ 备注 对salary求平均,对score列求和 R语言解法 df %>% summarise(salary_sum = sum(salary), score_mean

    8.9K10
    领券