首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

对基因芯片和转录组数据注释出基因名称和RNA类型(编码和非编码)

对整个基因芯片和转录组数据注释出基因名称和RNA类型(包括mRNA和各种非编码RNA)

0. 从GEO中自动下载数据和提取出表达矩阵和样本分组信息文件

这一步我之前已经有出过详细的从GEO中自动下载数据和提取出表达矩阵和样本分组信息文件的详细教程,这里就不再重复叙述,大家看我这篇教程即可,教程地址为:【腾讯文档】GEO上所有数据集数据的下载和提取的最详细教程

https://docs.qq.com/doc/DWUxiQVNOa0h4QUhj

基因组注释信息下载和整理

1从NCBI上下载基因组的注释文件

ncbi上基因组注释信息文件的下载入口的网址为: https://ftp.ncbi.nlm.nih.gov

人类不同版本基因组注释信息下载网址:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/

人类有hg19和hg38这两个版本,要根据分析的这个测序数据的基因组注释版本选择是hg19还是hg38版本。

视频教程:

从NCBI服务器上下载研究物种的基因组注释信息教程

https://www.bilibili.com/video/BV1YckwYuEL4/

下载到的文件

将该文件解压后并查看文件内容

这个基因组注释文件有40多万行,只有6万多行是基因名称行,所以要把基因名称行提取出来

第一列# featue列下面的行为gene的时候所在的行都是基因名称行。

1.2 从总的基因组注释文件出提取出基因名称的注释信息

软件界面

注意在使用该模块的时候,func_filter_rows_pattern要用到的列名不能有空格等特殊符号,所以这里要把基因组注释文件的第一列的列名由’# feature'修改成'feature'这个名字,保存文件后,再进行分析

执行结果

2.提取芯片数据集的注释信息

从gpl注释文件中提取出基因注释

对GPLsoft文件中没有基因名称的探针获取基因注释

将数据集的注释信息跟基因组的注释信息合并

软件分析界面

要整合的文件列表和文件内容

整合后的总的基因注释信息结果

提取分离出mRNA和其它非编码RNA的基因探针对应基因名称的注释信息

在总的注释文件中,class列类型为protein_coding的都是mRNA,其它的类型为lncRNA ,miRNA,tRNA等类型的统一把他们归为ncRNA这一类,然后分离出mRNA和ncRNA的基因注释信息,再分别把mRNA和ncRNA的基因注释信息跟提取的表达矩阵合并,就可以得到单独的mRNA的表达矩阵和ncRNA的表达矩阵了。

4.1 提取出mRNA的探针编号和基因名称对应的两列注释信息

软件分析模块和界面

软件界面填写的提取规则

我这里在run_file_path出提供了要提取的总的基因注释信息文件路径,在func_select_cols_str里只填了“id.col;probe_id”这两列,表示在最后提取的结果里只有id.col(基因名称列)和probe_id(探针id列)这两列注释信息,在func_filter_rows_pattern出填了"class==protein_coding"表示只从文件中提取出类别为protein_coding即mRNA的所有行

运行完成的结果

提取到了RNA类型为mRNA的id.col(基因名称列)和probe_id(探针id列)这两列注释信息,同时生成的这个结果文件名的文件名有点长,需要我们重命名一下文件名的名字,我把这个结果文件最终命名成了mrna_gene_anno_sub.csv,这样更加直观易懂一些。

4.1 提取出ncRNA各种非编码RNA的探针编号和基因名称对应的两列注释信息

软件分析模块和界面

软件界面填写的提取规则

我这里在run_file_path出提供了要提取的总的基因注释信息文件路径,在func_select_cols_str里只填了“id.col;probe_id”这两列,表示在最后提取的结果里只有id.col(基因名称列)和probe_id(探针id列)这两列注释信息,在func_filter_rows_pattern出填了"class!==protein_coding"表示只从文件中提取出类别不为protein_coding的即非编码RNA的所有行

运行完成的结果

提取到了RNA类型为ncRNA的id.col(基因名称列)和probe_id(探针id列)这两列注释信息,同时生成的这个结果文件名的文件名有点长,需要我们重命名一下文件名的名字,我把这个结果文件最终命名成了ncrna_gene_anno_sub.csv,这样更加直观易懂一些。

分别把mRNA和ncRNA的基因探针和基因名称这两列注释信息跟表达矩阵整合在一起,给表达矩阵注释出基因名称

5.1 把mRNA的基因注释信息跟表达矩阵整合在一起

分析界面

运行完成的结果

可以看到这里注释好的表达矩阵已经成为了行名是mRNA基因名,列名是样本名的表达矩阵了。我们这里的文件名里面没有mRNA这个名字,我会把mRNA的名字加到文件名里,把结果文件名重命名成了GSE92681_gsm_tar_after_norm_exp_matrix.add_mrna_gene_anno.csv 这个名字,便于后面的理解和文件区分。

5.2把ncRNA的基因注释信息跟表达矩阵整合在一起

分析界面

运行完成的结果

可以看到这里注释好的表达矩阵已经成为了行名是ncRNA基因名,列名是样本名的表达矩阵了。我们这里的文件名里面没有ncRNA这个名字,我会把ncRNA的名字加到文件名里,把结果文件名重命名成了GSE92681_gsm_tar_after_norm_exp_matrix.add_ncrna_gene_anno.csv 这个名字,便于后面的理解和文件区分。

至此,mRNA和各种非编码RNA的表达矩阵就都提取好了。

OmicsTools软件和分析教程介绍

前言和简介

OmicsTools全能医学生物生信分析电脑软件简介

我开发了一款本地电脑无限使用的零代码生信数据分析作图神器一站式全流程电脑软件OmicsTools,旨在成为可以做各种医学生物生信领域科研数据分析作图的的全能科研软件,欢迎大家使用OmicsTools进行生物医学科研数据分析和作图,该软件件能让大家在不需要任何编程和代码编写的基础上,分析次数没有限制,可以无限使用,让您在自己电脑上快速进行大量的生信分析和加速大家的科研。

OmicsTools生信分析电脑软件可以做医学生物生信各个领域的科研数据分析和作图,并致力于成为医学生物生信领域的综合全能分析软件,一个软件帮助大家做医学生物生信领域的各种研究,快速出成果。

现在1群满员,会提示加2群,2群也可以下载到软件。

持续整理的各领域生信分析文档和答疑文档

所有人可编辑提问我对各种问题跟答疑答疑的腾讯文档

所有大家遇到的各种生信分析问题都在我的这篇腾讯文档对应的答疑文档中进行,腾讯文档的答疑文档支持所有人编辑和提问。

这篇总的腾讯文档是各领域生信分析答疑指导汇总文档的入口,以后所有的生信分析教程资料都在这个在线word文档中就能检索到,答疑汇总也能在这个word文档中检索到,都在这个在线word文档对应的提问答疑文档文件中提问,提问的问题在文档中用红色字体显示,我答疑在文档中用黑色字体显示,提问答个疑的文档和教程的文档所有人都可编辑。大家在腾讯文档里提问好了之后,现在答疑文档也是比较多的,发个截图和答疑文档的链接网址给我看看,这样我能快速定位到你提问的是哪个问题。

可以提供的科研服务清单

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OW5oki6RBcuzg3-MpRA80jvQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券