首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python-大量文件夹名特定字符批量修改

    文章目录 问题 解决 对文件夹列表排序 对文件夹进行重命名 问题 需求: 一个文件夹下含有众多子文件夹,其中一些子文件夹名字含有特定字符,需要用其他字符替换 分析: 问题在于一旦修改了其中一个子文件夹...,那么子文件夹子文件夹路径也会发生改变,就会导致更多地可能,导致递归灾难 因此应该遍历所有的文件夹名,然后按照地址长度逆序排列,修改最长文件夹名字,不干扰上一级文件夹路径 而且有另一个规律,...,修改才有意义,相同不必多说,无用 如果最后文件夹名字相同,前面的需要修改,那自然等到前面进行到了再进行修改,而不是得陇望蜀 正向非常麻烦,而且需要给修改过设置特征变量,逆向思维更加简单,但是需要额外规律作为陪衬才能继续进行...print(i) update_folder(i) 对文件夹进行重命名 def update_folder(folder_my): print("开始处理文件夹",folder_my)...#有一个规律,只有最后一个期望得到不同路径才是正确,可修改,否则就是之前修改过,因此应该是逆序倒着修改 charc_list=[] temp_folder=folder_my

    1.3K30

    GEO数据挖掘

    ,把多指标转化为少数几个综合指标(即主成分)根据这些主成分对样本进行聚类,代表样本点(中心点除外)在坐标轴上距离越远,说明样本差异越大1.5.2 PCA用途用于“预实验”,简单查看组间是否有差别同一分组是否聚成一簇...2.6.4 富集分析可视化气泡图、柱状图/条形图Y叔Clusterprofiler 默认使用p.adjust可以按照CC、MF、BP图片进行分面也可以上、下调基因分开富集,合并画图3 代码分析流程3.1...3)让exp列名与pd行名顺序完全一致 临床信息分组信息与表达矩对应p = identical(rownames(pd),colnames(exp));pif(!...:2个脚本之间衔接:清空环境变量+load Rdata3.3.1 获取分组信息三种方法:有现成可以用来分组列自己生成使用字符串处理函数获取分组# Group(实验分组)和ids(探针注释)rm....txt", #read.table()小分支 check.names = F, #不要把列名特殊字符转化为.

    15600

    生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

    生信技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析起点是一个取过log表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍...关于表达矩阵里负值 (2)提取临床信息 pd <- pData(eSet) # 找分组信息 (3)让exp列名与pd行名顺序完全一致 p = identical(rownames(pd),colnames...如果三种办法都不适用,可以继续往后写else if if(F){ # 第一种方法,有现成可以用来分组列 Group = pd$ #列名 }else if(F){ # 第二种方法,眼睛数,...}else if(T){ # 第三种方法,使用字符串处理函数获取分组 k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k...singleDoc# 《一个有点难探针注释》 包含在ENTREZ_GENE_ID library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971

    29821

    GEO

    boxplot(exp)二、提取临床信息 pd <- pData(eSet)三、让exp列名与pd行名顺序完全一致分组信息每一列与表达矩阵每一行是对应关系p = identical(rownames...比较万能,只要两个分组可以有一个明确字符串来检测就可以 Group=ifelse(str_detect(pd$title,"control"),#str_detece是检查是否有这个字符意思...(pca_plot,file = "pca_plot.Rdata")八、热图比较应该是每行固定基因在不同样本表达量差异。...用标准差大基因进行画图,聚类和分组差别可能会大一些,但若选择表达差异大基因,聚类和分组会更一致。...,热图顺序就是分组顺序)#这样得到热图是表达矩阵里所有数据都进行作图行标准化pheatmap(n, show_colnames =F, show_rownames

    1.5K51

    Day09 生信马拉松-GEO数据挖掘 (

    使用字符串处理函数获取分组--适用范围最广,优先选择★★ k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k,"Normal...::idmap() 报错,type进行标注—查看帮助文案 ids <- AnnoProbe::idmap('GPL17692',type = "soft")#是复制 } ##如果捷径方法可行则无需运行以下四种方法.../112-pca-principal-component-analysis-essentials #PCA不同呈现方式可在上面链接查找,先用示例数据确保能运行,再根据实际需要进行调参 # PCA...show_rownames = F, #不显示列名 annotation_col=annotation_col #根据分组映射颜色 ) # 行标准化 pheatmap(n,...,对于我们一般习惯基因名为行,样本名为列数据框,就需要t()转置 cor()函数求相关系数时候也是列计算,如果计算行之间相关系数也需要对矩阵进行t()转置 参考资料:scale函数矩阵归一化是行归一化

    30710

    Learn R GEO

    主要学思维和方法,后面重点学习转录组具体分析代码 图表介绍 1.图表介绍 1.热图 ·输入数据是数值型矩阵/数据框; ·颜色变化表示数值大小 ; ·热图上面横横竖竖是聚类树,为了展示数值变化方向;...p) exp = exp[,match(rownames(pd),colnames(exp))] #分组信息来自临床信息,分组信息需要与表达矩阵列名一一应 #临床信息需要与表达矩阵一一应 (4)提取芯片平台编号...),pd(临床信息),exp(表达矩阵),gpl_number(芯片编号) 图片 Group(实验分组)和ids(探针注释) # 从临床样本获得实验分组(在表格慢慢找,代码如何实现看下) rm(list...图片 仿制实例数据 列—两个部分(前四列是用于求PCA值-探针/基因;最后一列为分组信息) 行—样本名称 需要对原始数据进行转换(如图a) 图片 图片 PCA代码 #仿制前四列 dat=as.data.frame...,所以需基因进行去重 ####方法1:随机去重 ####方法2:保留行和/行平均值最大探针 ####方法3:取多个探针平均值 #其他去重方式在 “zz.去重方式.R”这个文件里 deg <-

    1.1K01

    PCA图显示分组无差异,怎么办?

    '2'是列取)取每一行方差,从小到大排序,取最大1000个 library(pheatmap) n=t(scale(t(dat[cg,]))) # 'scale'可以对log-ratio数值进行归一化...”log-ratio数值进行归一化,现在dat是行名为探针,列名为样本名,由于scale这个函数应用在不同组数据间存在差异时,需要行名为样本,因此需要用t(dat[cg,])来转换,最后再转换回来...cg,])))#通过“scale”log-ratio数值进行归一化,现在dat是行名为探针,列名为样本名,由于scale这个函数应用在不同组数据间存在差异时,需要行名为样本,因此需要用t(dat[cg...ac即分组信息 } 去除批次效应后PCA图如下: ?...校正前后top200_DEG2热图比较,也发现弱化了组内差别,凸显出组间 这样,就可用新矩阵和差异基因进行下一步分析了 总结 挖掘数据集前,务必做好PCA图与热图检查,观察组间是否有差异,以此确定分组是否正确

    7.8K53

    基于基因集样品队列分组PCA

    那么,对于大样品队列转录组,很多时候是没有已知合理分组, 这个时候会人为分组后看队列异质性,比如根据免疫高低进行分组。...那么这个根据免疫高低进行分组就有多种实现方式,我们这里简单演示一下PCA和热图层次聚类以及gsea或者gsva这样打分分组,看看是否有区别。...$ind$coord 如下所示: 可以看到,每个样品在这个主成分分析图表上面都是有坐标的: > head(dat.pca$ind$coord[,1:2]) Dim.1...) pca_gl = group_list # 其中 hclust_gl 来自于前面的教程哦 table(pca_gl,hclust_gl) 可以看到前面的层次聚类样品分组跟现在PCAPC1分组...median,同时dat这个矩阵行操作,取每一行中位数,将结果给到median这一列每一行 ids=ids[order(ids$symbol,ids$median,decreasing = T)

    1.2K40

    生信技能树GEO数据挖掘直播配套笔记

    进行分组 Q:如何进行分组?...rep("control",times=9)) Group = rep(c("RA","control"),times = c(13,9)) }else if(T){ # 第三种方法,使用字符串出理函数获取分组...A:(1)PCA:加载FactoMineR和factoextra包,使用PCA()和 fviz_pca_ind()函数;数据:需要对exp矩阵进行t转换,将行名设置为样本名,列名设置为基因名,并转换成数据框形式...:zz.scale.R 行标准化 关于scale进一步学习 上面的因为行名是基因,所以对行进行标准化,是为了让基因在不同样本中进行标准化。...找到特定基因 差异基因热图 将火山图和热图拼起来 感兴趣基因相关性 进一步拼图 6.富集分析(可看RNA_Seq和多个芯片分析,那里画图好看) #富集分析所有图表默认都是用p.adjust

    1.9K33

    GEO数据库挖掘

    衡量每个通路基因在差异基因是否足够多symbol是常说基因名;entrezid 富集分析指定用,两者并非一一应,损失/增加部分基因属于正常。...p) exp = exp[,match(rownames(pd),colnames(exp))]###分组信息来自临床信息,分组信息需要与表达矩阵列名一一应,###临床信息需要和表达矩阵列一一应#(...运行一个就行}else if(T){ # 第三种方法,使用字符串处理函数获取分组 Group=ifelse(str_detect(pd$source_name_ch1,"control"),...关于scale进一步学习上面的因为行名是基因,所以对行进行标准化,是为了让基因在不同样本中进行标准化。...已经是一个基因为行名表达矩阵,直接差异分析,不再需要inner_join 3.2.4 差异分析只需要表达矩阵和分组信息在这个部分才进行id转换,不过也可以提到热图之前,不过在求差异基因后,再进行ID转换

    70021

    聚类算法之PCA与tSNE

    前 · 言 第二单元第六讲:聚类算法之PCA与tSNE 还是之前文章附件图片,其中b图是选取两个主成分做PCA图,c图是tSNE图: ?...: 计算距离介绍过dist()函数,它是行为操作对象,而聚类是要对样本聚类,因此要先将我们平时见到表达矩阵(行为基因,列为样本)转置;同样PCA也是行/样本进行操作,也是需要先转置;另外归一化scale...()函数虽然是进行操作,但它对象是基因,因此也需要转置 关于PCA学习,之前写过: StatQuest-PCA学习:https://www.jianshu.com/p/b83ac8f7f5a7...StatQuest--在R拆解PCA:https://www.jianshu.com/p/8a74508c3737 先构建一个非常随机测试数据 # 设置随机种子,可以重复别人使用随机数 set.seed...", # 只显示点,不显示文字 col.ind = dat$plate, # 分组上色 #palette = c("#00AFBB", "#E7B800

    3.5K30

    GEO数据挖掘3

    数据挖掘3 sunqi 2020/7/11 概述 下载好基因初步分析,进行PCA分析和热图绘制 PCA 绘制 rm(list = ls()) options(stringsAsFactors = F...#画PCA图时要求是行名时样本名,列名时探针名,因此此时需要转换 dat=t(dat) #将matrix转换为data.frame dat=as.data.frame(dat) #cbind添加分组信息...10.89980 10.93190 10.91850 10.71250 ## ZYG11B 10.48080 10.32370 10.51680 10.74500 #apply行取每一行方差...# 对数据进行归一化 # 因为是按照基因归一化,所以先进行转置,然后再转置回去 n=t(scale(t(dat[cg,]))) # 绝对值大于2数取绝对值2 # 使得最后数据范围控制在2以内 n[...# 可以看出两个分组之间存在不少差异表达 结束语 此部分分析较为基础,为GEO分析初步探索 love&peace

    1K31

    由表达矩阵看内部异质性

    那么先基因(行)进行设置: 因为dat矩阵相对于a虽然过滤掉了一万多基因,但是依然还剩一万多,然后我们有700多样本,那么可以算一下,这样结果是10000*700图,相当大,并且看不出什么含义。...可以看到,scale后并不改变数据分布,只是修改了坐标,让结果取值更加集中 注意:scale是进行操作,而我们是想基因(也就是行操作),这个函数有两个主要选项:center和scale ,其中...PCA · 图 之前好不容易过滤得到dat矩阵,不能因为下面分析失误被"污染",因此再进行下一个分析之前先做一个数据备份是个好习惯 dat_bk=dat # 然后我们就能放心dat进行操作了...dat=t(dat) dat=as.data.frame(dat) dat=cbind(dat,grp) PCA分析需要行是样本,列是基因表达量数据框(和聚类一样,是行/样本进行操作,最后做图中一个点就表示一个样本...最后用PCA进行计算分析,用fviz_pca_ind函数进行可视化 这里用到分组还是之前基于全部基因进行聚类cutree结果 ?“

    61730
    领券