首页
学习
活动
专区
圈层
工具
发布

day 6

str_length()字符串拆分 str_split()按照位置提取字符 str_sub()字符检测 str_detect()字符替换 :str_replace(只替换字符串里第一个对象)str_replace_all...;必须无双引号,不然不报错也不执行arrange(test, desc(Sepal.Length)) #从大到小unique()#向量去重复的函数duplicated()#判断向量中每一个值是否发生重复的函数...;重复定义:从左往右第二次到第多次出现算重复# 1.多次赋值,产生多个中间的变量x1 = select(iris,-5)#减去第5列x2 = as.matrix(x1)x3 = head(x2,50)#...全连接left_join 左连接 左边的表更重要right_join 右链接 右边的表更重要表达矩阵画箱线图(老师跳过了)7、一些优秀函数1)match和order的使用场景match函数:查找第一个向量...数据框列名错误:尝试用$访问不存在的列(如df$x但df无x列)。今日查缺补漏tips代码的运行不能撤销,但是可以执行之前的步骤再来一次。向量可以有名字,每个元素对应一个

12410

day 7-8 GEO数据挖掘

,注意及时升级R 不鼓励官网下载包手动安装的方式 1.3 常见的图 1、热图:有聚类和基因上调下调的信息 2、散点图和箱线图: 箱线图是散点图的精华 箱线图输入数据是一个连续型数据和一个有重复值的离散值向量...:组内重复是否号,组件差别是否大 主成分:为多个旧变量组合的新变量 原本十几个变量,现在可能只需要2~3个主成分就能代表大部分信息,而且这些主成分之间互不相关!...2.2分析思路: 2.2.1分析流程: 找数据-下载并读取数据-表达矩阵+临床分组信息- GPL编号(探针注释:探针和基因之间的对应关系)——数据探索(分组间是否有差异:PCA/最离散的一些基因的热图...#如果0行说明不是表达芯片或者是遇到特殊情况,不能用此流程分析 dim(exp)#检查行列的函数 #⭐二个要检查的地方 range(exp)#看数据范围决定是否需要log,是否有负值,异常值,如有负值.../机器学习/热图) 4、没取过log且有负值:提示错误数据(建议换一个数据或处理原始数据) 5、取过1og,有少量的负数,但是4<中位数<15 这种数据正常 3、优先找靠谱正常数据 降低难度 4、代码需要修代的地方

17410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    听说WGCNA官网崩了?那还能做基因共表达分析吗?

    主要的变异来源是发育阶段、组织和重复样本。我通常会制作一个汇总表来指导我的下游分析: 发育阶段可以作为数值变量或定性变量进行分析。 现在我们了解了实验设计,接下来我们将确定实验中变异的主要驱动因素。...Gene co-expression分析(接下来正式进行类似的wgcna的模块分析,共表达) 1.首先对重复的样本进行取均值 这不是一个必须的操作,只因为我们对组织-阶段组合之间的生物学变异感兴趣,而对同一处理中复制品之间的噪声不太感兴趣...选择高变异基因有多种方法和多个截止值。例如,你可以计算所有基因的logTPM的基因级方差,并取上三分位数。你可以选择在所有组织中具有一定表达水平的基因(比如说> 5 tpm),然后取高变异基因。...,一个好方法是查看诱饵基因是否在方差最高的基因之中。...我将这一步称为“边的选择”,其中每个基因是一个节点,每个相关性是一条边。我有两种方法可以做到这一点。

    40710

    在学术不端的数据取舍上面反复横跳

    然后第一种文章是再次对每个亚群继续细分走三件套(亚群注释,拟时序,转录因子)这样就可以凑三五个图表。第二种文章是针对其中一个亚群探索三五个大图。...,将对应的行赋值为一个新的ids ids[str_detect(ids$symbol,"PVRL2"),]#查看PVRL2基因对应的探针及表达量 ids[str_detect(ids$symbol,"...duplicated(ids$symbol),]#将symbol这一列取取出重复项,'!'...为否,即取出不重复的项,去除重复的gene ,保留每个基因最大表达量结果 dat=dat[ids$probe_id,] #新的ids取出probe_id这一列,将dat按照取出的这一列中的每一行组成一个新的...这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。

    31310

    R练习50题 - 第一期

    问题分析 首先,我们需要把股票代码symbol中包含8的那些观测找出来。我们可以借助与stringr这个字符串处理包。这一步不难,稍微有些挑战的是去重。如果我们不去重,那么我们会得到非常多的重复观测。...str_detect(symbol, "8")含义为:对于symbol向量,判断其是否含有字符8,如果有,则为True,否则Faulse。 unique:找出symbol中不重复的值。...其次,对于每个组,我们需要生成两个统计数字:一个统计上涨的个数,一个统计下跌的个数。最终结果如下: ? 可以看到,对于每个date,它都对应了两个观测,一个是“UP”,一个是“DOWN”。...代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组,所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...它是data.table内置函数之一,和unique几乎执行相同的操作,唯一不同的是,unique返回的是不重复的item(是一个向量),而uniqueN返回的是不重复的数量(是一个数字)。

    2.7K40

    字符串 数据框 管道符号 条件语句 循环语句

    (x2,"h")#检测x中的每个字符串是否含有“h”str_starts(x2,"T")#检测x中的每个字符串是否以“T”开头str_ends(x2,"e")#检测是否以“e”结尾### 5.字符串替换...x2str_replace(x2,"o","A")#只替换字符串中第一个str_replace_all(x2,"o","A")#替换所有### 6.字符删除xstr_remove(x," ")#只删除第一个空格...library(dplyr)arrange(test, Sepal.Length) #从小到大arrange(test, desc(Sepal.Length)) #从大到小# distinct,数据框按照某一列去重复...distinct(test,Species,.keep_all = T)#将数据框test中的Species列去重复# mutate,数据框新增一列mutate(test, new = Sepal.Length...require(tidyr)) install.packages('tidyr')#### (2)有elsei =1if (i>0){print('+')}else {print("-")}i = 1ifelse

    33620

    R数据科学|第十章内容介绍

    重复 正则表达式的另一项强大功能是,其可以控制一个模式的匹配次数。 ?:0 次或 1 次。 +:1 次或多次。 *:0 次或多次。...分组与回溯引用 以下的正则表达式可以找出名称中有重复的一对字母的所有水果: str_view(fruit, "(.)\\1", match = TRUE) ? .:匹配任意字符 (.)...:将匹配项括起来,并将其命名为\\1;如果有两个括号,就命名为\\1和\\2。 \\1:表示回溯引用 因此,(.)\\1的意思是,匹配到了字符,后面还希望有个相同的字符。....)\\2\\1", match = TRUE) 匹配检测 要想确定一个字符向量能否匹配一种模式,可以使用str_detect()函数。...x <- c("apple", "banana", "pear") str_detect(x, "e") #> [1] TRUE FALSE TRUE str_detect() 函数的一种变体是str_count

    1K30

    从零开始的异世界生信学习 R语言部分 06 R应用专题

    ##用来检测元素中的字符,生成与向量元素相等的逻辑值向量,可以用来取子集 str_starts(x2,"T") ##检测是否以T开头 str_ends(x2,"e") ##检测是否以e结尾 图片 5...= T) ##某一个数据第一次出现视为不重复,之后出现的为重复 图片 2.mutate()数据新增列 # mutate,数据框新增一列,新增一列是两列数值的乘积 mutate(test, new =...可以用来进行分组,通过str_detect函数识别数据中的关键词,然后进行分组 samples = c("tumor1","tumor2","tumor3","normal1","normal2","...(l1,l2) ##判断两个数据是否一致 #如何将结果存下来?...操作的函数,批量操作 图片 图片 分批次将运行结果保存为R.data格式便于管理数据 图片 大段代码暂时不运行可以进行折叠,并加入一个if 判断或者注释掉 表达矩阵箱线图 表达矩阵 R 语言作图要求将宽数据的表达矩阵转变成长数据后昨天

    2.9K30

    生信技能树学习笔记 Day 3

    函数stringr功能str_length() #测定字符串长度str_split() #拆分字符串str_sub() #按照位置提取字符 str_detect() #检测是否包含某个字符str_replace...筛选filter() #筛选行select() #筛选列逻辑算法① 管道符号快捷键shift + control + M ② 条件代码if(条件,一个逻辑值){条件正确执行操作}else{条件错误进行的操作...}if(条件,一个逻辑值){条件正确执行操作}else if(条件){第二个条件正确进行的操作}用上述方法就可以同时实现多个条件ifelse条件函数ifelse(条件, 条件成立输出, 条件不成立输出)...t1 = str_detect(samples, "tumor") # 检测样本名中是否有tumorifelse(t1, "tumor', "normal") #如果样本名中包含tumor则输出tumor...,反之则输出normaldata[, 4] = ifelse(t1, "tumor', "normal") #在data矩阵中增加一列,内容为分组情况ifelse()中条件不成立输出的一栏可以再增加ifelse

    49321

    R语言学习笔记-Day6

    计算一个"字符串"内的字符数。...,是否存在该字符(输出值为T或F)1.5 字符的替换str_replace(x2,"o","A")只会对第一次出现的"o"替换成"A"#改进:str_replace_all(x2,"o","A")对所有的...#整行移动#升序排序降序排序arrange(test,desc(Sepal.Length))##列名不能加""2.2 去重复distinct(test,Species,.keep_all=T)#对某一列中重复的元素去重复...*1if(F){...} #{}内所有代码被跳过if(T){...} #{}内代码执行#针对限速步骤可以将限速步骤保存为.Rdata,之后加载该文件即可#下载数据的代码,可保留但不反复运行*2分成多个脚本...k2,"tumor","normal")3.4 for循环for(i in x){CODE}#对x中的每个元素i执行相同的代码CODE#有几个元素则执行几次,函数本身不存在判断条件,可自行添加其它函数进行判断

    45400

    生信技能树- R语言-day7

    TURE,生成长度相等的逻辑值向量,可以用来取子集,可以提出来含有h的地雷str_starts(x2,"T") #是否以t开头str_ends(x2,"e")#是否e结束5.字符串替换x2str_replace...unique 给向量去掉重复duplicated 判断是否发生了重复(逻辑值关系,遇到第二次就变成ture)distinct(test,Species,.keep_all = T)mm[!...,根据逻辑值向量生成有两个取值的字符型向量ifelse() + str_detect()samples = c("tumor1","tumor2","tumor3","normal1","normal2...require(g,character.only = T))install.packages(g,ask = F,update = F)}玩转隐式循环apply向量里有两个东西,一个是正文,一个是名字,...") #某文件在工作目录下是否存在file.remove("douhua.txt") #用代码删除文件file.exists("douhua.txt") #删掉了就不存在啦可以批量的新建和删除f = paste0

    35800

    R语言利用转录组基因表达矩阵做基因共表达分析的学习资料推荐

    ,表达量数据的下载链接是 https://zenodo.org/record/7117357#.Y0WB13ZBzic 关于样本的一些分组信息在链接里提供了,大家如果感兴趣可以自己下载数据然后跟着这个链接完全重复一下...接下来的内容我重复一下资料中利用表达量数据做PCA的内容 代码 setwd("data/20221012/") list.files() #library(data.table) library(...str_detect(dev_stage, "5 DPA") & str_detect(tissue, "Locular tissue|Placenta|Seeds") ~ "LM",...) PCA_by_stage library(patchwork) PCA_by_method+PCA_by_tissue+PCA_by_tissue image.png 以上用到的代码和示例数据都可以在推文开头提到链接里找到...上面的代码有一步是对TPM值 加1然后取log10,他的实现方式是先将宽格式数据转换为长格式,然后把取log10后的长格式再转换为宽格式,这里我没能还可以借助mutate_at()函数 Exp_table

    52510

    day 6 字符串 数据框 条件 循环 隐式循环

    (行) of 2 variables:(列)3.按位置提取字符串str_sub(x,5,9) #提取从5-9位置的字符串4.字符检测 可以筛选符合条件的元素str_detect(x2,"h") #检测每个位置是否有该字符...test, Sepal.Length) #从小到大,加上引号之后没有报错但也没排序arrange(test, desc(Sepal.Length)) #从大到小# distinct,数据框按照某一列去重复...as.matrix() %>% head(50) %>% pheatmap::pheatmap()条件和循环library(stringr)条件语句1.if(){ } 带有{}表示这一段代码可以被折叠...tumor3","normal1","normal2","normal3")k1 = str_detect(samples,"tumor");k1 #string包中的函数:samples中有tumor...的位置返回的结果为TRUEifelse(k1,"tumor","normal")k2 = str_detect(samples,"normal");k2ifelse(k2,"normal","tumor

    26100

    生信马拉松 Day7

    ;x 1.1 检测字符串长度 str_length(x) #注意包括空格,空格也算一个 #[1] 42 length(x) #算的是向量有多少个元素 #[1] 1 1.2 字符串拆分 str_split...tab出列名,再删去数据框名字,防止写错 identical(a$Sepal.Length,test$Sepal.Length) #这个函数意思为是否相同,可以用来检查是不是真的排序了 2.2 distinct...,不可以是多个逻辑值组成的向量 } #if+else的格式 if (){ }else{ } #ifelse的格式 ifelse( , ,) #第一个逗号前是逻辑值 #for的格式 for(){...ggplot2) p = ggplot(pdat,aes(gene,count))+ geom_boxplot(aes(fill = group))+ theme_bw() p TIPS 1.如何看某一列是否有重复值....如何进行长脚本的管理 1.可以用if(F){}来进行长脚本的管理,带有{}的代码,可以被折叠 2.分成多个脚本,每个脚本最后保存Rdata,下一个脚本开头清空再加载,不推荐表格文件 生信技能树,生信马拉松

    46400
    领券