首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【R语言】根据映射关系来替换数据框中的内容

前面给大家介绍过☞R中的替换函数gsub,还给大家举了一个临床样本分类的具体例子。今天我们接着来分享一下如何根据已有的映射关系来对数据框中的数据进行替换。...例如将数据框中的转录本ID转换成基因名字。我们直接结合这个具体的例子来进行分享。...=bed #将NM开头的转录本号后面的内容提取出来,然后跟相应的基因名字贴到一起 #直接替换result的第四列注释信息 result1$V4=paste0(symbol,gsub("NM_.*?...stri_replace_all_regex(bed$V4, rownames(mapping), mapping[[1]],vectorize=F) #查看结果 head(result2) 方法三、使用mgsub函数 前面讲☞使用R获取...参考资料: ☞R中的替换函数gsub ☞正则表达式 ☞使用R获取DNA的反向互补序列

4K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据框的列名居然会影响绘图

    bug,是数据框的列名居然会影响绘图,蛮适合我们的人工智能大模型答疑的专辑,所以我也视频演练了一下; 第一次提问:在r编程语言里面绘制一个箱线图 在R语言中,你可以使用ggplot2包来绘制箱线图,或者使用基础图形系统中的...根据你的具体需求和偏好选择使用哪一种。 第二次提问;还有ggpubr包,ggstat等吗 在R语言中,除了ggplot2包之外,还有几个扩展包可以用于绘制包含统计信息的图形,包括箱线图。...的错误,这通常意味着在数据处理过程中,列名或其他标识符出现了重复。根据搜索结果,这个问题可能与数据处理方式有关,尤其是在使用dplyr包的select()函数时。...解决这个问题的一种方法是确保在进行选择操作时,所选的列名是唯一的。...在这种情况下,尝试减少数据点的数量,或者检查数据框确保没有重复的列名,可能会有所帮助。

    8210

    R数据框如何取交集

    前面给大家介绍过了 ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇 有小伙伴拿自己的数据试了一下,反馈预测结果太多了。...这里需要注意,限定的软件越多,得到的结果会越少,也有可能完全得不到结果,所以这个需要根据自己数据的实际情况确定。 那么我们怎么利用R代码来对miRNA预测结果取交集呢?...a","b","c") b=c("b","c","g") intersect(a,b) #[1] "b" "c" a=1:4 b=3:7 intersect(a,b) #[1] 3 4 那么如果想对R里面的数据框取交集该如何操作呢...miRNA预测结果都是两列的数据框。...下面给大家介绍三种对R数据框取交集的方法 方法一、我们将各列的信息合并成一个字符串,然后取交集 #将各列的信息用_连接起来 combine1=apply(df1,1,function(x) paste

    1.7K20

    R语言-向量和数据框

    一、R语言的数据类型 向量(vector) 矩阵(Matrix) 数组(Array) 数据框(Data frame) List 向量是由元素组成的,元素可以是数字或者字符串。...x[4] #x第4个元素 x[-4]#排除法,除了第4个元素之外剩余的元素 x[2:4]#第2到4个元素 x[-(2:4)]#除了第2-4个元素 x[c(1,5)] #第1个和第5个元素 (2)根据值...x[x==10]#等于10的元素 x[x<0] x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素 三、数据框 1、注意先把数据集放在工作目录下 2、读取 read.table(...file = "×××.txt") a<-read.table(file = "×××.txt") #上述括号中可添加以下代码 header= T #设置表格列名 sep = "" #设置分列(通常会根据制表符分列...,不须设置) 3、查看 colnames(a) #查看列名 rownames(a) #查看行名,默认值的行名就是行号,1.2.3.4... dim(a)#几行几列 4、导出 write.table(a,

    18710

    R语言学习-数据框

    数据框数据框创建数据框类似矩阵,有行列两个维度。数据框允许不同的列可以包含不同的类型数据。注意数据框可以看成每个组将长度相同的列表。x #name,性别,age是列名> mydata1$性别[1] "男" "男" "女"> class(mydata1$性别)[1] "character"数据框有两个维度...,可以返回多行多列的结果,具体操作方式与矩阵相同数据框行列名的获取与更改数据框行列名的读取与编辑有多种方式,这里介绍两种常用的数据框列名的读取与更改1.可以通过colnames(数据框>)...或者colnames..."性别" "age" 2.列名更改,colnames(数据框)...或者colnames(数据框) mydata1 数据框使用rbind()时添加的行数据框还是列表> mydata2 <- data.frame(name = c("李小华","张蜜桃

    8700

    R语言数据结构(三)数据框

    数据结构是指在计算机中存储和组织数据的方式,不同的数据结构有不同的特点和适用场景。R语言中的常用数据结构,包括向量、矩阵、数组、列表和数据框。...为方便大家理解记忆,对每种数据结构的基本操作概括为四大类: 创建数据结构 往里面添加数据 从里面查询数据 对里面的数据进行修改 这篇文章我们将介绍数据框的使用 数据框 数据框是R语言中的一种类似于表格的数据结构...列名:数据框的每一列都有一个列名,用于标识不同的列。列名是一个字符向量,可以通过colnames()函数获取或设置。...1] "1" "2" "3" cat("数据框的列名:\n") col_names # 数据框的列名: # [1] "name" "age" "gender" # 修改数据框的行名和列名...= 25) cat("根据条件删除age为25岁的行后的数据框:\n") print(df_deleted_age) # 根据条件删除age为25岁的行后的数据框: # name age gender

    27530

    R语言之数据框的合并

    1.纵向合并:rbind( ) 要纵向合并两个数据框,可以使用 rbind( )函数。被合并的两个数据框必须拥有相同的变量,这种合并通常用于向数据框中添加观测。...横向合并:cbind ( ) 要横向合并两个数据框,可以使用 cbind( ) 函数。用于合并的两个数据框必须拥有相同的行数,而且要以相同的顺序排列。这种合并通常用于向数据框中添加变量。...Indometh 转换成了数据框,这是因为其默认类型不是数据框。...在对医学数据进行分析之前,通常情况下应先把数据集转换为长格式,因为 R 中的大多数函数都支持这种格式的数据。...tidyr 包中的 gather() 和 spread() 同样可以用于长型、宽型数据类型转换,详见 Cookbook for R。

    88550

    R数据科学|5.5.3内容介绍

    存在问题:随着数据集规模的不断增加,散点图的用处越来越小,因为数据点开始出现过绘制,并堆积在一片黑色区域中(如上面的散点图所示) 解决方法:使用alpha图形属性添加透明度: ggplot(data =...使用分箱处理 但是对于特别大的数据集使用透明度也不管用了,另一种解决方法是使用分箱。...我们之前使用了geom_histogram()和 geom_freqpoly()函数(可参考5.3.1内容 )在一个维度上进行分箱。...接下来就可以使用前面学过的对分类变量和连续变量的组合进行可视化的技术了,具体可见5.3.1内容。...另一种方法是近似地显示每个分箱中的数据点的数量,此时可以使用cut_number()函数: ggplot(data = smaller, mapping = aes(x = carat, y = price

    1.1K20

    R数据科学|5.3内容介绍

    写在前面 上一期我们对《R数据科学》第3.7节进行了内容介绍和习题解答,细心的读者可以发现,这里直接跳转到了5.3节了。原因在于中间各节内容干货较少,也没有习题,所以就跳过了。...分类变量在 R 中通常保存为因子或字符向量,可以使用条形图来显示分类变量的分布: ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut)...例如,如果只考虑重量小于3克拉的钻石,并选择一个更小的分箱宽度: smaller % filter(carat < 3) ggplot(data = smaller...我们可以把上述问题作为探寻数据规则的依据,进而对数据进行合理的可视化。...实际中,钻石的宽度不可能为0毫米,也很少会在32毫米和59毫米,所以根据实际情况,我们可以将这些数据进行剔除。 注意: 实际中,可以对带有异常值和不带异常值的数据分别进行分析。

    89920

    R数据科学|5.5.1 内容介绍

    5.5.1 分类变量与连续变量 我们经常需要探索连续变量的分布,按分类变量的分组显示连续变量分布的常用的两种方式是: 改变 y 轴的显示内容,不再显示计数,而是显示密度。...箱线图是对变量值分布的一种简单可视化表示,每张箱线图都包括以下内容: 一个长方形箱子,下面的边表示分布的第 25 个百分位数,上面的边表示分布的第 75 个百分位数,上下两边的距离称为四分位距。...这三条线可以表示分布的分散情况,还可以帮助我们明确数据是关于中位数对称的,还是偏向某一侧。 圆点表示落在箱子上下两边 1.5 倍四分位距外的观测,这些离群点就是异常值,因此需要单独绘出。...例如,我们看一下 mpg 数据集中的 class 变量。

    59130

    R数据科学|3.6内容介绍

    上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。...函数功能:summarize()可以将数据框折叠成一行: summarize(flights, delay = mean(dep_delay, na.rm = TRUE)) #> # A tibble:...1 × 1 #> delay #> #> 1 12.6 如果想要将分析单位从整个数据集更改为单个分组,可以使用group_by()。...例如,如果对按日期分组的一个数据框应用与上面完全相同的代码,那么我们就可以得到每日平均延误时间: by_day <- group_by(flights, year, month, day) summarize...#> #> 1 2013 336776 注意:在循序渐进地进行摘要分析时,使用求和与计数操作是没问题的,但如果想要使用加权平均和方差的话,就要仔细考虑一下,在基于秩的统计数据

    1K20

    R语言-03数据框、矩阵和列表

    “向量”——一维 “表格”——二维 matrix 矩阵-二维,只允许一种数据类型 data.frame 数据框-二维,每列只允许一种数据类型 list列表:可装万物 1.数据框来源 (1)用代码新建 (...2)由已有数据转换或处理得到 (3)读取表格文件 (4)R语言内置数据(没有赋值就可以直接使用的数据,例如iris) 2.新建数据框* 读取文件 df2<-read.csv("gene.csv") df2...#读取"gene.csv"文件,赋值df2 3.数据框属性 4.数据框取子集 df1$gene #"$"前是数据框名称 后是列名;提取该列的向量 #按名字取子集 df1 行,列 图片 5.数据框修改...取子集,赋值 #改行名和列名 rownames(df1) r1","r2","r3","r4") #修改全部行名 #只修改某一行/列的名 colnames(df1){2} 列名 6.两个数据框的连接 按照共同的列名取交集,后连接 两个数据框列中有交集时既可以使用,自动连接 矩阵新建和取子集 矩阵画热图 pheatmap::pheatmap(m) #热图结果默认聚类

    22200
    领券