前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >贴心 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3

贴心 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3

原创
作者头像
CJ-Chen
修改于 2021-04-14 02:09:34
修改于 2021-04-14 02:09:34
1.5K0
举报
文章被收录于专栏:生信札记生信札记

写在前面

目前基因组测序和组装成本几乎已经到任何一个课题组都可以单独负担的价码,大量物种的基因组序列被测定和释放。与此同时,对应的基因结构注释信息文件,如GTF或GFF3文件等,也可公开下载。

对于绝大多数要使用这些公共资源的研究人员而言,有了这两个文件就足够了。但想象总是美好,现实却常常骨感。物种基因组很多,基因组序列质量不高的同时,基因结构注释信息文件更加不规范,往往直接影响下游数据分析。我最近在看一些数据,也就遇到类似的问题。如果规范化一个GFF3文件,补充对应的信息,使得该文件能够尽可能适应各类下游数据分析,更或者方便进一步分析使用。

做了大概检索,发现几乎没有同类功能的工具,除了一个perl脚本集合(github搜索 aget )或许可以做类似工作外,确实没发现相关功能的软件实现,尤其是...又还有界面。(Emmm,我还是会乐于承认功能已有实现的软件存在,当然可能是就算啥也没有,我还有 JIGplot 绘图引擎。不会像某两三个团队,似乎有意回避 TBtools,无视他人科研贡献。 :D - PS: 好彩 TBtools 文稿,尤其是预印本、github和一些早期视频讲演早早放到网上去了,不然就要被“李鬼打李逵”了

回到主题,花了点时间,写了 GXF Fix,然后放到 TBtools 主程序,主要用于修复基因结构注释文件中的缺失部分(基于文件中已有信息)。

常见基因结构注释信息文件问题

基因结构注释信息文件,

  1. GENE:有不少注释信息缺少 gene feature,比如一些很粗糙的,直接转录组有参考组装结果 gtf 文件
  2. mRNA:存在一些基因结构注释信息文件,缺少了mRNA feature,只有exon和cds,或者只有cds。这类文件对于一些转录组分析流程,如STAR align - stringtie这个流程来说,可能直接无法动。
  3. UTR:只有极少数物种会提供 UTR区间,一般是只给出exon和cds,甚至只有mRNA和cds,剩下的 UTR 信息其实是很可能存在的,但是得用户自己去做坐标计算。有 UTR 区间的好处就是...知道一些位点的绝对可靠序列特征信息,如 miRNA 靶位点等。
  4. 排序:存在不少基因结构注释信息文件的排序混乱
  5. ....:当然,还有很多比较坑爹的情况

所有这些,都可能影响下游分析。如果有一个方便快捷的功能就好了。

GXF Fix 修复基因结构注释信息文件 - GTF/GFF3

我已经很久没有写出这么符合 TBtools 开发理念的功能了。我们的口号是 -IOS~:

  • Input
  • Output
  • Start

于是,功能界面如下,通过菜单跳转。

使用实例之一 - 拟南芥

Emmm,拟南芥的基因结构注释信息文件,可以说是非常全面....我们可以跑跑看。

内容对比如下

整体行数,完全没变化...

因为其实就没啥好修复的,这个注释信息很好。

使用示例之三 - 香蕉

香蕉的基因结构注释质量有待提升,不过具体内容上都还可以。

内容对比如下

整体行数变化较多,毕竟 UTR 还是有不少。

使用示例之三 - 粗糙注释

有一些注释信息文件,还是比较粗糙的。比如缺少 gene,甚至 mRNA feature都没有。

代码语言:txt
AI代码解释
复制
# stringtie --merge -G F:\RNA-seq\algnment\sme.gff3 -o merged.stringtie.gtf WT.cd1_1.fq_clean.fq.pos.sorted.assembly.gtf WT.cd2_1.fq_clean.fq.pos.sorted.assembly.gtf WT.unc1_1.fq_clean.fq.pos.sorted.assembly.gtf WT.unc2_1.fq_clean.fq.pos.sorted.assembly.gtf
# StringTie version 2.1.4
SMEL3Ch00.00004	StringTie	transcript	42	1079	1000	-	.	gene_id "MSTRG.1"; transcript_id "MSTRG.1.1"; 
SMEL3Ch00.00004	StringTie	exon	42	717	1000	-	.	gene_id "MSTRG.1"; transcript_id "MSTRG.1.1"; exon_number "1"; 
SMEL3Ch00.00004	StringTie	exon	836	1079	1000	-	.	gene_id "MSTRG.1"; transcript_id "MSTRG.1.1"; exon_number "2"; 
SMEL3Ch00.00004	StringTie	exon	97	210	1000	-	.	gene_id "MSTRG.1"; transcript_id "SMEL_000g000120.1.01"; exon_number "1"; 
SMEL3Ch00.00004	StringTie	exon	484	717	1000	-	.	gene_id "MSTRG.1"; transcript_id "SMEL_000g000120.1.01"; exon_number "2"; 
SMEL3Ch00.00004	StringTie	exon	836	1079	1000	-	.	gene_id "MSTRG.1"; transcript_id "SMEL_000g000120.1.01"; exon_number "3"; 

直接进行修复

写在最后

Emmm,功能还是很不错的。我觉得这个应该会成为一个常用功能吧。尤其是,越来越多不够规范的 GTF 或者 GFF3 文件出现之后。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Linux进阶 02 生物信息学常见文件格式
第三列 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...
可乐同学与生信死磕到底
2024/04/17
1730
鉴定lncRNA流程全套代码整理
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
生信菜鸟团
2023/08/23
3.6K1
鉴定lncRNA流程全套代码整理
TBtools | 多图合一至强版教程!进化树+Motifs+结构域+启动子+基因结构+....
“Gene Structure View (Advanced)”这个功能可以说,也是一时兴起写出来的。开发的主要动机,还是发现师弟师妹在做的事情实在是太费时间精力。就这样,四五年过去了。直到现在,我仍然没搞懂,这个功能是怎么被大伙用起来的。我甚至没有花过时间,专门为这个功能写教程。网络上已有的教程,均是用户们自发总结,确实已经讲解得足够清晰明白。多少,我有时看到还是有点感动,毕竟这些事情也可以说是软件开发的一部分。太懒,仍然是我的问题。工作以后,能静下心来写点文字的时间,越来越少。正是假期,我已然预见明天之后便是忙碌的一个月。为此,享受这最后一天。相对系统的总结一份教程,希望能减少一部分用户使用问题,也让一些朋友能够更好的使用工具。
CJ-Chen
2021/04/05
19.8K0
TBtools | 多图合一至强版教程!进化树+Motifs+结构域+启动子+基因结构+....
stringTie:转录本组装和定量工具
对于转录组数据而言,最基础的分析就是基因和转录本水平的定量了,定量就是确定一个基因或者转录本的表达量,其中定量的方式有很多种。
生信修炼手册
2020/05/08
14K2
stringTie:转录本组装和定量工具
wk文本处理
接着,我们可以使用awk模仿cut的操作(结果与cut -f2,3 example.bed一致):
ruochen
2021/12/05
1.3K0
使用Tbtools根据gtf文件统计基因密度
也可以先把自己的gtf文件里的顺序更改一下,使用到的工具是 Tbtools里的 GXF Fix
用户7010445
2021/07/30
1.5K0
R语言可视化展示gff3格式基因组注释文件简单小例子
https://girke.bioinformatics.ucr.edu/GEN242/mydoc_Rgraphics_7.html
用户7010445
2020/07/10
3.3K0
详解GFF转换为GTF文件
存储基因和转录本的结构信息,gtf和gff3两种格式都可以。在实际分析时,会需要转换两种格式。比如,NCBI 只提供了GFF格式的下载文件,我们需要转换成GTF文件之后再使用。
生信修炼手册
2020/05/08
4.9K0
GFF文件格式简介
组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下
生信修炼手册
2020/05/08
9K0
GFF文件格式简介
lncRNA组装流程的软件介绍之Stringtie
该软件的官网:https://ccb.jhu.edu/software/stringtie/index.shtml。
生信技能树
2021/07/06
1.8K0
如何快速重命名Gff3文件中的基因ID名称
在使用EVM或者maker进行基因注释后,通常的下一个需求就是对注释的gff的ID进行重命名,一般我们会按照物种的名称,按照基因在染色体的位置进行命名。这个该如何实现呢?这里借助近期看到的一些笔记,和大家分享其中的方法。
生信菜鸟团
2022/05/24
7.2K0
如何快速重命名Gff3文件中的基因ID名称
TBtools基因家族分析详细教程(1)
一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细教程(3)基因家族成员的进化分析1 TBtools基因家族分析详细教程(3)基因家族成员的进化分析2
Y大宽
2018/10/08
32.8K1
TBtools基因家族分析详细教程(1)
GTF文件格式简介
GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。
生信修炼手册
2020/05/08
7K0
使用refGenome加上dplyr玩转gtf文件
当然,这个gtf是有非常多的值得探索的地方,比如可以完成http://www.biotrainee.com/thread-626-1-1.html 我在生信技能树»生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务›生信编程直播第三题:hg38每条染色体基因,转录本的分布 !
生信技能树
2018/12/24
1.8K0
Linux基础 Day2
常见用法:1. paste file1 file2 2. seq 20 | paste - -
用户11008504
2024/06/01
1270
生信技能树-day18 转录组上游分析-比对、定量
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
4930
生信技能树-day18 转录组上游分析-比对、定量
gff文件转换成gtf文件
做测序数据分析的时候经常需要将gff格式的注释文件转换成gtf格式的文件。今天小编就给大家介绍一个工具,gffread来实现这个目的。注意这个工具需要在linux或者mac操作系统上运行。
生信交流平台
2020/09/30
2.2K0
NGS基础 - GTF/GFF文件格式解读和转换
GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组。 从 Ensembl 导出的GFF文件示例: X Ensembl Repeat 2419108 2419128 42 . . hid=trf; hstart=1; hend=21 X Ensembl Repeat 2419108 2419410 2502 - . hid=AluSx; hstart=1; hend
生信宝典
2018/02/05
11.8K0
NGS基础 - GTF/GFF文件格式解读和转换
基因注释
记录下自己对RNA-seq基因注释的学习,并对Drop-seq软件包中的注释模块进行代码研读
零式的天空
2022/03/28
1.1K0
Linux - grep
生信技能树学习笔记 grep 文本搜索工具,能使用正则表达式匹配模式搜索文本 图片 图片 >grep -nr 'TATATT' Data/ ##显示行号 >less Data/example.gtf | grep -w 'gene' ## 以单词的格式查找 >cat Data/example.gtf | grep -w -e 'gene' -e 'exon' ## 多个关键词 >cat file gene UTR start_codon stop_codon >cat Data/example.gtf
用户10328045
2023/02/17
8.7K0
相关推荐
Linux进阶 02 生物信息学常见文件格式
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档