首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R-批量文件读取

批量文件读取 sunqi 2020/6/12 概述 文件的批量读取,一般在拿到数据时,如果是大批量的数据,那么就需要多次的读取 10个文件以为的内容通过10行的内容可以读取,但是如果是上百个文件,那么读取的...时候就比较复杂,解决思路是通过循环进行读取 代码 创造示例文件目录 setwd("D:/test") # 先创造几个重复文件 # 分别在test1和test2 生成3个iris数据集 for(i in...,file = newdu) } } 读取文件 # 获得目标文件夹 path<-"D:/test" filedir <- dir(path = path,full.names = T) filedir...# 显示当先目录下有两个文件夹 ## [1] "D:/test/test1" "D:/test/test2" # 建立数据框存储数据 result <- data.frame()#最终数据 # 从目前的目录再次进去子目录数据...# 因为有2个文件夹,所以需要进一步读取 for(i in filedir){ dir1 <- dir(path = i,full.names = T) for(j in dir1){

69030
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何使用TCGAbiolinks下载TCGA数据并整理

    从官网下载并不麻烦,但是第一是需要选取非常多的自定义选项,第二是网络环境不好会容易中断,对于初学者倒是一个非常好的了解生物信息学的途径,但遇到批量化处理需求的时候就会难以进行。...TCGAbiolinks 包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。其实就是broad研究所的firehose命令行工具的R包装!...该函数的应用场景是:当需要在R中读取或写入数据时,需要指定存储数据的文件夹路径。但在执行R代码时,可能需要将当前工作目录更改为存储数据的文件夹路径。如果文件夹不存在,需要创建文件夹。...这时, shelfEnvironment 函数可以帮助我们检查并创建文件夹,使得数据可以正常读取或写入。 表达谱数据处理 清空环境, 读取MANIFEST信息, 特别是需要样本名和文件夹名. # !...整理---- ## 清除当前环境中的所有对象 rm(list = ls()) ## 设置主文件夹路径, 并设置工作目录 (root_dir <- sub("/code.+", "", rstudioapi

    7.5K42

    GEO数据库表达谱差异基因分析

    我们需要将文件进行分类,在工作目录建立一个cancer文件夹和一个normal文件夹,将相应的cel文件复制到相应文件夹中。注意,是复制,我们还要在当前文件夹里用所有的数据演示查看数据质量等操作。...quietly = TRUE)) install.packages("BiocManager") BiocManager::install("affy") library(affy) 其实,随着R版本的不同...,加载该包时也需要很多基础包,需要先加载,而且每个人已经安装的包也不同和R版本的不同,这一过程可能会出错,反正在加载时出错,一般都是缺包或者需要加载一下包,缺什么补什么就行了!...允许用户读取MIAME信息和CEL文件的affybatch。如果在没有参数ReadAffy()的情况下调用该函数,那么将读取工作目录中的所有CEL文件并将其放入AffyBatch中。...,最后,对自己的矩阵文件求差异基因——使用R语言“limma”包。

    9K2118

    上皮细胞里面混入了淋巴系和髓系免疫细胞呢

    跟文章不一样的哦,所以我得到如下所示的亚群: 可以看到每个单细胞亚群都是泾渭分明的,而且有一个独立的细胞增殖状态的亚群它是多种不同单细胞亚群的混合物。...提取上皮细胞进行细分亚群 我在第一层次降维聚类分群的工作文件夹里面新建了 sub-cluster/sub-epi-inferCNV 这样的文件夹结构,然后重新开始新的r项目,所以需要如下所示的代码提取上皮细胞...sce.all=CreateSeuratObject( counts = sce.all@assays$RNA$counts, meta.data = sce.all@meta.data ) 就读取上面的两层的文件夹里面的.../scRNA_scripts/qc.R') sce.all.filt = basic_qc(sce.all) print(dim(sce.all)) print(dim(sce.all.filt)) setwd.../scRNA_scripts/check-all-markers.R') setwd('../') getwd() 这个时候很明显的可以看到上皮细胞的降维聚类分群居然是出现了淋巴系和髓系免疫细胞的干扰哦

    4500

    R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)

    可能是R在读取路径时,对x86这样的文件夹不大好识别吧,我第一次装在x86里,读取是失败的。 2、在R中加载环境,即一行代码,路径要依据你的java版本做出更改。...(如*.xlsx) 代码思路:先遍历文件夹(list.files),然后通过循环依次读写(read.xlsx)。...——需要read.xlsx这一步骤 ##批量读入文件夹中的xlsx文件 #如何批量读取一个文件夹中的各种txt文件 micepath <- "C:/Users/long/Desktop" micefiles...micefiles[[i]],header = F,1) } —————————————————————————————————————————————————————————————————— 五、批量读入文件夹中的文本文件...,originpath是路径名(细致到文件名称以及后缀),savepath可以是文件夹名称。

    5.8K31

    scanpy和Seurat单细胞分析对比

    文件夹的r代码都在上面的百度云网盘链接(https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?..._10x_mtx函数读取数据,传入文件夹路径,保证文件夹下还是这三个文件即可 循环读取9个单细胞数据,用字典进行存储,key为样本名,value为scanpy读取后的对象 用scanpy下的concat..._colors里面存放的就是0.01的分辨率下每个cluster对应的颜色 adata.X里面存放的是表达矩阵,行为cell,列为gene ### Step1 批量读取单细胞数据 # 字符串前面加上r之后...,路径里的/和\就不用特意修改了 path = r'F:\新建文件夹\2022-GSE189357-LUAD-单细胞-疾病进展\GSE189357_RAW\output' files = glob(path...:新建文件夹/' os.chdir(work_dir) qc部分,参考曾老师seurat里qc.R脚本写的 这里只考虑了human gene,都是大写的 #计算比例和标准质控 def basic_qc

    1.7K70

    【Hadoop 分布式部署 十:配置HDFS 的HA、启动HA中的各个守护进程】

    然后分别访问这两个主机的50070 发现如果可以访问 就初步配置成功 ? ?         ...下面这个内容配置错误的原因,我现在已经更改过来了 ?             更改完成后,在执行一下 (就可以看见文件目录已经循环出来了) ?             ...然后 在测试HA的读取功能 使用命令: bin/hdfs dfs -text /user/zuoyan/conf/core-site.xml                文件已经成功 正常的被读取出来了...切换之后在用NameNode 1 去读取HDFS上的文件 测试 是否能正常读取文件                 (切换之后已经正常的读取出来了,证明节点切换 对集群是没有影响的) ?               ...完成到这样 HDFS的高可用 已经初步搭建好了

    1.1K60

    手把手教你使用shiny创建一个网页工具(基于Windows)

    安装必要的R包 安装方式如下GIF图所示,基本步骤就是打开Shiny项目中的 TF_map.Rproj,然后打开其中 scripts/install_packages.R, 把里面提到的所有R包都装了就行...gene table 原本需要下载下面两个数据, gencode.v20.annotation.gtf.gz gencode.vM20.annotation.gtf.gz 然后用Perl脚本进行预处理,但是格式化的...经过我排查,发现罪魁祸首就是"NUP98–PHF23"中的"中间连字符,中间那个"–"根本不是连字符。...作者会给你提供一个微云网盘链接,我们以其中比较小的文件为例进行演示。 在shiny的应用文件夹创建一个文件夹db,然后将下面文件下载到该文件夹中。(选择一个较小的作为演示) ?...注请保持原有的文件夹层次关系,例如这次下载的文件就应该存放在db/cistrome/human/DNase下。 ?

    2.9K20

    肿瘤单细胞转录组的第一层次降维聚类分群

    认识GEO数据库里面的单细胞转录组数据文件格式 我们《生信菜鸟团》的单细胞周更专辑作者分享过好几次了基础文件读取技巧啦,详见:读取不同格式的单细胞转录组数据及遇到问题的解决办法。...构建Seurat对象 包的Read10X函数是可以读取单个样品的一个文件夹路径,但是我们是需要循环读取每个文件夹,所以是lapply这样的读取方式: dir='GSE189357_RAW/outputs...pwd=3heo 下面的scRNA_scripts文件夹的r代码都在上面的百度云网盘链接(https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?...14 scRNA_scripts/lib.R 102 scRNA_scripts/qc.R scRNA_scripts文件夹的r代码都在上面的百度云网盘链接(https://pan.baidu.com.../scRNA_scripts/check-all-markers.R') setwd('../') getwd() 如下所示的0.1分辨率群就很少: 0.1分辨率群就很少 如下所示的0.8分辨率群就很多

    38150

    Hadoop3单机和伪分布式模式安装配置

    [a-z.]+' 执行完成之后可以发现output文件夹中生成了两个文件part-r-00000和_SUCCESS,其中part-r-00000文件中记录着在input目录中的所有xml文件中上述正则表达式匹配成功的单词的数量...要使用 HDFS,首先需要在 HDFS 中创建用户目录: hdfs dfs -mkdir -p /user/hadoop 接着将 etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中...,即将 /usr/local/src/hadoop-3.1.0/etc/hadoop 目录下的xml文件复制到分布式文件系统中的 /user/hadoop/input 中。...HDFS中的文件(可以将单机步骤中创建的本地 input 文件夹,输出结果 output 文件夹都删掉来验证这一点)。...查看运行结果的命令(查看的是位于 HDFS 中的输出结果): hdfs dfs -cat output/* 结果如下,注意到刚才我们已经更改了配置文件,所以运行结果不同。

    2.1K21

    格式化hdfs的命令_hadoop的启动命令

    命令会自动创建父目录,类似于带-p的linux命令 2、上传文件命令 put命令从本地文件系统中复制单个或多个源路径到目标文件系统,也支持从标准输入设备中读取输入并写入目标文件系统。...通过“-ls 文件夹名” 命令浏览HDFS下文件夹中的文件 命令格式:hadoop dfs -ls 文件夹名 浏览HDFS中in文件夹中的文件 hadoop dfs -ls in 通过该命令可以查看in...文件夹中的所有文档文件 6、查看HDFS下某个文件的内容 通过“-cat 文件名”命令查看HDFS下文件夹中某个文件的内容 命令格式:hadoop$ bin/hadoop dfs -cat 文件名 #查看...HDFS下in 目录中的内容 hadoop$ bin/hadoop dfs -cat in/* 通过这个命令可以查看in文件夹中所有文件的内容 7、将HDFS中的文件复制到本地系统中 通过“-get 文件按...备注:不允许在不同的文件系统间移动文件。

    1.8K20

    immunedeconv包与Xcell批量处理文件

    该包的资源不同于一般的R包,并没有储存在CRAN或者bioconductor中。在github中查找immunedeconv,搜索页面出来的第一个就是可供R语言调用的immunedeconv包。...第一步:准备表达矩阵(行名已注释为gene symbol,与immunedeconv包中要求的hugo 基因名一致;列名为样品名)并写入R....三、for循环进行文件批量处理 #1.将所有要分析的同类型文件放在同一个文件夹下,将其设置为当前工作路径 #1.1获取该文件夹下的文件名和文件个数(我这里共有6个文件) files<-dir() files...四、批量处理过程中遇到的问题及解决方法 尽管自己认为for循环已经写得很完美了,但刚开始其实并没有想象中的那么顺利,囧...... 文件内容不变,还是刚开始的文件。...结论:在执行for循环的时候,例如从第1个文件到第20个文件,如果在第5个文件处出错,那么系统就可以执行到第4个文件,然后提示返回第1个文件,故我们需要解决第5个文件的问题。

    2K10

    单细胞数据分析-R语言对分群结果的top基因循环做富集分析

    的加载文件是在ncbi上下的,所以两个数据库的id号不同,我需要先在biodbnet进行全部的转换,读到一个新的表格里面,然后在进行转换,我这里主要是用的最近新学的dplyr包里面的函数,大家可以看一下这个博主的文章...,以上的代码没有发生报错的现象,因此我目前开始准备写循环,进行亚群的批量富集分析。...主要也是参考我前几次肺癌文章里面的批量读取cellranger的gz文件的语句,然后进行更改。...[循环后的文件夹结果] 总结 主要是需要先把自己要做富集分析的cluster读到R中,然后进行循环语句的读写,R中的循环语句主要注意的是自己用的是什么数据,需要怎么读入文件中。...目前是批量完了,还没有报错,做完了,可以跟公司的结果进行对比,查看数据质量的重复性。

    2.5K20

    Learn R 函数和R包

    ") #ls是展示出该包中的函数 R语言中的函数 ()前的是函数 [] 是取子集,一定是个数据 【】里有“,”->向量或矩阵 [[]] 前的通常是个列表 列表取子集 $ 数据框取子集 的默认格式是表格; #2.记事本也可以打开; #3.sublime(适用大文件)打开 #4.R语言读取 #表格文件读到R语言中,就得到了一个数据框,对数据框进行的修改不会同步到表格文件,需重新导出...#在当前文件夹(data自己建立的文件夹)下用“/”打开 >read.csv("data/ex1.txt") #同样把文件保存到当前目录的文件夹(Rdata 自己建立的文件夹)中 >...save(test,file="Rdata/xxx.Rdata") #当前在一个文件夹中想要调用另一个文件夹的Rdata #方法一 复制路径下载 getwd() [1] "/Users/zhuo...“ ”,因为矩阵中只允许一种数据类型 要把整个都改为数字型 "40" "20" "51" "46" "38" "49" R语言可以读取的文件格式 ###通用格式 csv. xls. txt. tsv.

    1.4K00

    单细胞测序—标准流程代码(3)—marker 基因富集分析_差异基因

    load之前得到的check-by-celltype文件夹的qc-_marker_cosg.Rdata注:得到qc-_marker_cosg.Rdata的部分代码#存在check-all-markers.R...得分值:矩阵中的值代表每个基因在不同细胞群中的显著性得分。较高的得分通常表示该基因在该特定细胞群中具有更显著的表达模式或是更具代表性的 marker 基因。...我观察到返回的基因score都是正值,且暂未发现类似于FindAllMarkers中的only.pos参数。因此我猜想cosg默认返回的是上调的marker基因。...unique()函数会返回所有不同的细胞类型,即去重后的细胞类型列表。lapply() :是R中的一个循环函数,作用是对列表中的每个元素应用同一个函数,并返回一个列表。...do.call()用于将rbind应用到lapply()生成的结果列表中,将不同细胞类型的统计结果合并为一个矩阵或数据框。

    54810

    hadoop 基础入门

    ://localhost:9000/test 查看文件:bin/hdfs dfs -cat /test/hadoop/*.xml 删除文件:bin/hdfs dfs -rm -r /test/*.xml...全部的系统命名空间元数据,包括数据块到文件的映射及系统属性存储在文本地系统件FsImage中。...NameNode在内存中保存着一份系统命名空间及数据块映射镜像,当NameNode启动时,或者检测点触发,NameNode读取磁盘Fsimage及Editlog文件,将Editlog文件中的事务应用于内存中的...数据组织: 大数据文件,一次写入,多次读取,流式读取,标准大小数据块128m,一个文件会被分割为多个数据块,并尽可能的分配到不同的数据节点上。...备份节点: 执行checkpoint节点相同的功能,同时保持一份内存镜像,实时和主节点异步更新,日常流式从主节点接收系统变更,固化到硬盘,同时应用到内存中的镜像。

    48850
    领券