Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?

就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?

作者头像
生信技能树
发布于 2019-09-24 06:01:25
发布于 2019-09-24 06:01:25
4K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

大家好,我是梦梦,以为自己半年前完成了数据挖掘培训学习,结果最近想看看自己是否够格成为优秀学徒,才发现自己与他们差距有多大,所以把自己思考过程分享一下,希望大家也都实践起来,不要自认为懂了就懂了! 前面生信技能树公众号优秀学徒发布了七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步),展现过分析过程了,但是自己由于没有实践,吸收和理解很差,所以自己再复现一次。

考核题的文章里面是自己测了8个TNBC病人的转录组然后分析,这里借助TCGA数据库,所以可以复现。我这里想展现的主要是TCGA的数据下载和基因的ID转换,分类,的理解。

文章中展示的第一张图片,文章将lncRNA和mRNA分别进行了差异基因的筛选,后面的分析也都是基于这张图片的基础上,因此我们能区分出是lncRNA和mRNA的GENEID,就可以做后面的差异分析以及功能注释了。

复现文章

一.下载数据

数据下载方式

技能树公众号里已经有很多关于TCGA数据的下载方式了,下面是其中的两个参考链接:

https://mp.weixin.qq.com/s/juiTSx5aEQpuH_wzFBXnrw

https://mp.weixin.qq.com/s/CJoq-Wz3b3y9GoHxmrNSkg

数据下载步骤

我用的是UCSC 的xena数据库下载,下载步骤如下:

1.下载网址:https://xenabrowser.net/datapages/

2.搜索brca,发现有两个数据集(这里选择了第一个数据集)

[GDC TCGA Breast Cancer (BRCA)]

[TCGA Breast Cancer (BRCA)]

image-20190917185034993

3.如上图,选择HTSeq-counts和Phenotype,下载到本地

image-20190917185139751

image-20190917185202060

4.将下载下来的文件保存到当前工作目录中

二.R处理数据

得到表达矩阵
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
######step1-getdata
rm(list = ls())
expr<-read.csv('TCGA-BRCA.htseq_counts .tsv',sep = '\t')
save(expr,file = 'TCGA-BRCA.htseq_counts .Rdata')
load('TCGA-BRCA.htseq_counts .Rdata')
colnames(expr)
rownames(expr)<-expr$Ensembl_ID
expr<-expr[,-1]
colnames(expr)<-gsub('.','-',colnames(expr),fixed = T) 

phe<-read.csv('TCGA-BRCA.GDC_phenotype.tsv.gz',sep = '\t')
phe[1:4,1:4]
colnames(phe)
phe_tnbc<-phe[,c(1,20,25,67)]
er<-phe_tnbc[phe$breast_carcinoma_estrogen_receptor_status=='Negative',]
pr<-er[er$breast_carcinoma_progesterone_receptor_status=='Negative',]
her2<-pr[pr$lab_proc_her2_neu_immunohistochemistry_receptor_status=='Negative',]
phe_new<-her2
rownames(phe_new)<-phe_new$submitter_id.samples
phe_new<-phe_new[,-1]
phe_new$id<-c(1:118)
a<- which(duplicated(substr(rownames(phe_new),1,12)))
b<-which(duplicated(substr(rownames(phe_new),1,12)))-1
b<-as.integer(b)
normal<-phe_new[a,]
tumor<-phe_new[b,]
nt<-rbind(normal,tumor)
rownames(nt)
table(substr(rownames(nt),14,15))

expr_phe<-nt[(rownames(nt) %in% colnames(expr)),]
table(substr(rownames(expr_phe),14,15))
which(substr(rownames(expr_phe),14,15)=='06')#同一个病人,两个tumor编号,一个为01,一个为06,这里面为了保持整齐,去掉06.
expr_phe<-expr_phe[-9,]
rownames(expr_phe)
dim(expr_phe)
x<-substr(rownames(expr_phe),1,12)
x
table(x)
table(x)==2
table(x)[table(x)==2]
y<-names(table(x)[table(x)==2])
clini<-expr_phe[x %in% y,]
dat<-expr[,match(rownames(clini),colnames(expr))]

save(dat,clini,file = 'step1.Rdata')
load('step1.Rdata')

通过上面就得到了10个TNBC病人的既含有tumor又含有normal的表达矩阵,及他们的临床信息。值得注意的是,不同下载源,得到的病人数量不一样哦。

主成分分析看分组

上面是处理好的数据,但是我们还有看看自己处理后的数据的分组情况,是不是没有问题的,因此用主成分分析。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
######step2-PCA
rm(list = ls())
load('step1.Rdata')
library("FactoMineR")
library("factoextra") 
exprSet<-dat
#exprSet=exprSet[apply(exprSet,1,function(x) sum(x>0))>=20,]注释掉是因为一开始想这样筛选探针,但是是不对的,后面还要通过lncRNA和mRNA进行过滤探针
dim(exprSet)
group_list<-c(rep('tumor',10),rep('normal',10))
df.pca <- PCA(t(exprSet), graph = FALSE) 
fviz_pca_ind(df.pca,
             geom.ind = "point",
             col.ind = group_list, 
             addEllipses = TRUE, 
             legend.title = "Groups"
)

可以看到,tumor和normal可谓是泾渭分明!非常棒image-20190919195559728

三.注释

1.从R包中注释

因为要区分lncRNA和蛋白编码基因,需要查看群主以前的教程,主要是需要仔细研读两个价值1000元的代码:

第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案

第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释

根据教程,我计划首先从R包中获得注释,需要下载对应的注释R包。从Bioconductor获得的AnnotationDbi Introduction To Bioconductor Annotation Packages文档中的代码。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
######step3-id_convertion
BiocManager::install('EnsDb.Hsapiens.v75')
library(EnsDb.Hsapiens.v75)
edb <- EnsDb.Hsapiens.v75
edb
columns(edb)
keytypes(edb)
keys <- keys(edb, keytype="GENEID")
## Get the data
gene2sym<-select(edb, keys=keys, 
                 columns=c("SYMBOL","ENTREZID","GENEBIOTYPE",'GENENAME'),
                 keytype="GENEID")
table(gene2sym$GENEBIOTYPE)

image-20190919211129898

从图片中可以看到编码蛋白的protein_coding RNA,还有很多绿色框圈起来的RNA,文章中的mRNA可以通过对应protein_coding 的GENEID获得对应的gene symbol,那么lncRNA的GENEID是如何获得的?

除去我只知道的非编码RNA中的miRNA,其他还有哪些是lncRNA呢?貌似从这个R包中我并没有头绪了。于是打算再折腾一番。老大曾经告诉过,从GTF文件中可以获得lncRNA。因此继续要做的就是需要补充两个知识,就是:

  • 1.何为lncRNA(它和上图中的lincRNA什么关系?)
  • 2.如何获得GTF文件已经如何得到lncRNA对应的GENEID?

第一个问题:何为lncRNA(它和上图中的lincRNA什么关系?)

解决问题:

关于非蛋白编码基因(non-coding RNA,ncRNA)的一些概念 非蛋白质编码基因组在生物学和医学上的地位日益突出。下面的10句话帮助理解ncRNA。 1.人类基因组中约有93%的DNA序列转录生成RNA,然而只有约2%的DNA序列最终编码生成蛋白质。 2.那些能为蛋白质编码的RNA分子, 称为编码RNA(coding RNA),也就是protein-coding RNA。而那些不能编码蛋白质,但也能被转录生成RNA的RNA分子统称为非编码RNA(non-coding RNA,ncRNA)。 3.ncRNA的功能主要是参与mRNA的稳定和翻译水平的调节、参与蛋白质的运输、参与RNA的加工和修饰、影响染色体的结构等。 4.ncRNA分为看家非编码RNA(housekeeping non-coding RNA)和调控非编码RNA(regulatory non-coding RNA),而后者主要包括主要包括长度大于200个核苷酸的长链非编码RNA(long non-coding RNA, lncRNA)和少于200个核苷酸的短链非编码RNA。 5.短链非编码RNA又分为微小RNA (mircoRNA, miRNA)、内源性小干扰RNA (endogenous small interfering RNA, endo-siRNA)、PIWI相互作用RNA ( PIWI-interacting RNA , piRNA)、核仁小分子RNA(small nucleolar RNA, snoRNA)等。 6.研究最深入的短链非编码RNA是miRNA,但许多其他类型的ncRNA也在细胞稳态和疾病中发挥重要作用,比如lncRNA。 7.与具有调节功能的短链非编码RNA相比,长非编码RNA(long noncoding RNA,lncRNA)在数量上占大多数。 8.lncRNA一般是指大于200个核苷酸的非编码RNA。 9.lncRNA可分为正义lncRNA(sense ln-cRNA)、反义lncRNA(antisense lncRNA)、双向lncRNA (bidirectional lncRNA)、基因内lncRNA(intronic ln-cRNA)及基因间lncRNA(intergenic, lincRNA)等5种类型。 10.长基因间非编码RNA (lincRNA)基因是lncRNA中的一类,具有重组染色质和基因组结构、RNA稳定和转录调控(包括增强相关活性)等功能。有一些lincRNAs含有小开放阅读框(smORFs)和编码功能肽,也被归类为编码RNA。lincRNAs可以广泛地通过多种基因来微调邻近基因的表达,具有显著的组织特异性。

第二个问题:如何获得GTF文件以及如何得到lncRNA对应的GENEID?

解决问题:如下,需要一定的linux基础知识

2.从GTF文件注释

想要获得GTF文件,又需要补充和回顾下下面的知识点

超精华生信ID总结,想踏入生信大门的你-值得拥有

https://github.com/jmzeng1314/bioinformatics123/blob/master/appendix/database.md

https://vip.biotrainee.com/d/165-gtf-gff

基因组注释文件(GFF,GTF)下载的四种方法

  • [NCBI]
  • [Ensembl]
  • [UCSC]
  • [GeneCode]
(1)不同注释版本之间的对应关系

hg19,GRCH37和ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的人类基因组信息。 hg系列,hg18/19/38来自UCSC也是目前使用频率最高的基因组。hg38,是目前的最新版本。 基因组各种版本对应关系综合来看如下所示 : NCBI (UCSC) : ENSEMBL

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。

==Ensembl,还有2个大名鼎鼎的计划就是ENCODE和GENCODE==

Ensembl与ENCODE以及GENCODE计划之间的关系 Ensembl是ENCODE计划的子项目。而GENCODE计划(由Sanger研究所维护)则是ENCODE项目的衍生品,它的目标是为ENCODE项目提供可用的人类基因组和小鼠基因组注释。Ensembl在ENCODE计划中的作用是,为人类基因组的组装提供计算机的自动注释信息,并且把这些自动注释的信息和来自HAVANA的人工注释信息进行合并。GENCODE中的人类和小鼠的基因组注释和Ensembl数据库是同步发行的。

GTF和GFF格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式。

==GFF==全称为general feature format,这种格式主要是用来注释基因组。

==GTF==全称为gene transfer format,主要是用来对基因进行注释。

比如序列的哪里到哪里是基因,是转录本,是外显子,内含子或者CDS等等,已经成为序列注释的通用格式,许多软件都支持输入或者输出gff格式。gff是由tab键隔开的9列组成,以下是各列的说明:

  1. seq_id:序列的编号,一般为chr或者contig ID;
  2. source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替
  3. type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等;
  4. start: 该基因或转录本在参考序列上的起始位置;
  5. end: 该基因或转录本在参考序列上的终止位置;
  6. score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,.表示为空;
  7. strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
  8. phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、12. (对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5’末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值;
  9. attributes: 一个包含众多属性的列表,格式为“标签=值”(tag=value),以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。如果描述中包括tab键以及“,= ;”,要用URL转义规则进行转义。
(2)GFF示例==
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gff-version 3
description: evidence-based annotation of the human genome (GRCh38), version 31 (Ensembl 97) - long non-coding RNAs
provider: GENCODE
contact: gencode-help@ebi.ac.uk
format: gff3
date: 2019-06-27
sequence-region chr1 1 248956422
chr1    HAVANA  gene    29554   31109   .       +       .       ID=ENSG00000243485.5;gene_id=ENSG00000243485.5;gene_type=lncRNA;gene_name=MIR1302-2HG;level=2;hgnc_id=HGNC:52482;tag=ncRNA_host;havana_gene=OTTHUMG0000000095
chr1    HAVANA  transcript      29554   31097   .       +       .       ID=ENST00000473358.1;Parent=ENSG00000243485.5;gene_id=ENSG00000243485.5;transcript_id=ENST00000473358.1;gene_type=lncRNA;gene_name=MIR1302-2HG;transc
chr1    HAVANA  exon    29554   30039   .       +       .       ID=exon:ENST00000473358.1:1;Parent=ENST00000473358.1;gene_id=ENSG00000243485.5;transcript_id=ENST00000473358.1;gene_type=lncRNA;gene_name=MIR1302-2HG;transcr

gencode.v31.long_noncoding_RNAs.gff3.gz

可以看到第9列其实是可以无限扩展的,==只需要以;进行分割即可==。

(3)GTF 与GFF的差异==

GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),它们的差别重点在第9列。 GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,而不是GFF里面的=号。相同的是每个特征之后都要有分号;分割。

(4)GTF示例==
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##description: evidence-based annotation of the human genome (GRCh38), version 31 (Ensembl 97) - long non-coding RNAs
##provider: GENCODE
##contact: gencode-help@ebi.ac.uk
##format: gtf
##date: 2019-06-27
chr1    HAVANA  gene    29554   31109   .       +       .       gene_id "ENSG00000243485.5"; gene_type "lncRNA"; gene_name "MIR1302-2HG"; level 2; hgnc_id "HGNC:52482"; tag "ncRNA_host"; havana_gene "OTTHUMG00000000959.2"
chr1    HAVANA  transcript      29554   31097   .       +       .       gene_id "ENSG00000243485.5"; transcript_id "ENST00000473358.1"; gene_type "lncRNA"; gene_name "MIR1302-2HG"; transcript_type "lncRNA"; transcript_nam
chr1    HAVANA  exon    29554   30039   .       +       .       gene_id "ENSG00000243485.5"; transcript_id "ENST00000473358.1"; gene_type "lncRNA"; gene_name "MIR1302-2HG"; transcript_type "lncRNA"; transcript_name "MIR13

gencode.v31.long_noncoding_RNAs.gtf.gz

(5)基本概念的理解

参考一些网络教程,当然推荐大家看书咯。

基于转录本上的概念

==外显子和内含子==: 基因 DNA 分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。编码区则转录为 mRNA 并最终翻译成蛋白质。 外显子和内含子都被转录到 mRNA 前体 hnRNA 中,当 hnRNA 进行剪接变为成熟的 mRNA 时,内含子被切除,而外显子保留。实际上真正编码蛋白质的是外显子,而内含子则无编码功能。 内含子存在于DNA 中,在转录的过程中,DNA 上的内含子也会被转录到前体 RNA 中,但前体 RNA 上的内含子会在 RNA 离开细胞核进行翻译前被切除。 promoter不属于intron和exon的任何一个,属于noncoding sequence. ==开放读码框====ORF== 开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。内含子和外显子指的就是一个开放阅读框(ORF)内编码的部分和不编码的部分。

基于翻译上的概念

mRNA 包括 UTR 和 CDS ==UTR==:UTR,Untranslated Regions一班指的是一个转录本(transcript)3'和5'不参与编码的区域即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。UTR区不参与编码,但是不是说他们没有功能,只是不被翻译成具有功能的蛋白质。多数基因都有UTR,它们也是外显子拼接的产物。UTR在DNA序列中是算外显子的区域。 ==CDS==:CDS,Sequencecodingfor aminoacids in protein 蛋白质编码区 ,CDS 是 Coding sequence的缩写,是编码一段蛋白产物的序列,CDS 必定是一个 ORF 。但也可能包括很多 ORF 。反之,每个 ORF 不一定都是 CDS 。 外显子与 CDS 区不是完全一致的,CDS 区一定属于外显子,但是外显子不一定是 CDS 区,也就是说外显子不一定都能翻译成蛋白。

三张图片帮助理解

外显子和内含子是转录本上面的概念,是基于转录这个行为的定义。 而5端UTR区域和CDS区域,还有3端UTR区域,是基于翻译这种行为的定义!

(6)如何获得GTF、GFF文件

上面是关于基本概念的理解,那么从哪里下载GFF文件和GTF文件?

这边是从gencode官网,步骤如下:

登录gencode官网:https://www.gencodegenes.org/

1.点击How to access data

2.点击human

3.选择最新的版本version 31

4.下载GTF或GFF文件

接下来就可以解决上面的第二个问题,即如何获得GTF文件以及如何得到lncRNA对应的GENEID?

(7)获得lncRNA对应的GENEID

下载的gencode.v31.long_noncoding_RNAs.gtf.gz文件用FileZilla上传到服务器,输入如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
zless -S gencode.v31.long_noncoding_RNAs.gtf.gz|grep -w 'gene'|cut -f 9|cut -d ';' -f 1-3|tr ';' ' '|awk '{print $2 $4 $6}'|less -S > anno.txt

再将anno.txt用FileZilla传到本地。

(8)在R里读取id注释文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
######step3-id_convertion
options(stringsAsFactors = F)
lncRNA_genecode<-read.table('anno.txt')
tmp<-sapply(strsplit(lncRNA_genecode$V1,'.',fixed = T),function(x)x[1])
lncRNA_genecode$GENEID<-tmp
colnames(lncRNA_genecode)[2]<-'GENEBIOTYPE'
colnames(lncRNA_genecode)[3]<-'gene_name'
table(lncRNA_genecode$GENEID %in% gene2sym$GENEID)
tmp1<-lncRNA_genecode[lncRNA_genecode$GENEID %in% gene2sym$GENEID,]
lncRNA<-gene2sym[match(tmp1$GENEID,gene2sym$GENEID),]

tmp<-sapply(strsplit(rownames(dat),'.',fixed = T),function(x)x[1])
rownames(dat)<-tmp
mRNA<-gene2sym[which(gene2sym$GENEBIOTYPE=="protein_coding"),]
dim(mRNA)

最终得到的mRNA和lncRNA的GENEID(也就是ENSG开头的)和SYMBOL的对应关系矩阵就得到了,如下图

最后,得到上面的mRNA和lncRNA的GENEID和symbol的对应关系,在通过GENEID对应到表达矩阵——step1得到的dat,分别走标准差异分析流程,就可以分别获得mRNA和lncRNA中的差异基因啦!这样就可以很容易得到文章中的第一张图片啦

后记

可以看到,仅仅是复现文章的第一章图表就已经非常的不容易了,说起来仅仅是把基因分类,实际上要理解背后的生物学知识,数据库来源知识,需要linux和R能力,以前我觉得学习很简单,但是看到了太多的零基础和负基础,负起点的朋友的挣扎才发现完全不是那么一回事。

当然了,共数据库挖掘需要的基础linux和r技巧好好掌握。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
鉴定lncRNA流程全套代码整理
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
生信菜鸟团
2023/08/23
3.6K1
鉴定lncRNA流程全套代码整理
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
可以下载各种gtf,从NCBI,ENSEMBL,UCSC,GENCODE都可以!(记住,你下载什么样的gtf就需要修改成什么样的代码!!!)本文来源于我的个人博客: 画基因结构图! http://ww
生信技能树
2018/03/08
1.3K0
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三
1写在前面 本期我们介绍一下如何处理rawdata,将Reads转为 Count Matrix。🤩 2参考基因组及注释 1️⃣ 目前,大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSC(hg19、hg38、mm10等),和GRC(GRCh37、GRCh38、GRCm38)。 二者在主要染色体上是对等的(如hg38的chr1 = GRCh38的chr1),但在一些小的位点上会有细微差异。 基因组注释过程包括定义基因组的转录区域,明确exon和intron,将其分成pro
生信漫卷
2022/10/31
3.3K0
🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
今天我们介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - IsoQuant。2023年1月2日,康奈尔大学医学院Hagen U. Tilgner团队和圣彼得堡国立大学Andrey D. Prjibelski团队合作在Nature Biotechnology(NBT)杂志发表题为 “Accurate isoform discovery with IsoQuant using long reads” 的文章 (图1)。作者开发了 IsoQuant -- 一款使用内含子图(intron graphs)的计算工具,在有参考基因组注释或者无参的情况下能够利用长度长序列准确重构转录本。对于新的转录本发现,IsoQuant 使Oxford Nanopore(ONT)数据在有参或无参模式下的假阳性率分别降低了5倍和2.5倍。IsoQuant 同时也提高了Pacific Biosciences数据的性能。
三代测序说
2024/02/22
1.7K1
全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant
基因组中的趣事(二)- 最长的基因2.7 million,最短的基因只有8 nt却能编码
可变剪接调控基因RBFOX1以2.7 million的长度超过之前文献报道的最长基因CNTNAP2 (智力语言损伤相关基因)。RBFOX1编码的蛋白倒不长,只有397个氨基酸,可见其内含子区特别长。
生信宝典
2020/11/24
1.9K0
基因组中的趣事(一):这个基因编码98种转录本
从ENSEMBL的注释来看,人基因组中包含60,676个注释的基因,19968个蛋白编码基因。这些基因长度不同、位置不同、转录出的转录本不同,下面我们用几篇推文一步步去了解下基因组中的基因都有哪些令我们惊讶的地方。
生信宝典
2021/10/22
1.1K0
基因组中的趣事(一):这个基因编码98种转录本
TBtools | 多图合一至强版教程!进化树+Motifs+结构域+启动子+基因结构+....
“Gene Structure View (Advanced)”这个功能可以说,也是一时兴起写出来的。开发的主要动机,还是发现师弟师妹在做的事情实在是太费时间精力。就这样,四五年过去了。直到现在,我仍然没搞懂,这个功能是怎么被大伙用起来的。我甚至没有花过时间,专门为这个功能写教程。网络上已有的教程,均是用户们自发总结,确实已经讲解得足够清晰明白。多少,我有时看到还是有点感动,毕竟这些事情也可以说是软件开发的一部分。太懒,仍然是我的问题。工作以后,能静下心来写点文字的时间,越来越少。正是假期,我已然预见明天之后便是忙碌的一个月。为此,享受这最后一天。相对系统的总结一份教程,希望能减少一部分用户使用问题,也让一些朋友能够更好的使用工具。
CJ-Chen
2021/04/05
19.7K0
TBtools | 多图合一至强版教程!进化树+Motifs+结构域+启动子+基因结构+....
GFF文件格式简介
组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下
生信修炼手册
2020/05/08
8.9K0
GFF文件格式简介
《GEO数据挖掘课程》配套练习题
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
生信技能树
2020/09/24
1.1K0
《GEO数据挖掘课程》配套练习题
lncRNA的一些基础知识
同样的策略,我们也可以应用到lncRNA的学习。以前我在:miRNA、LncRNA、CircRNA靠谱小结 也提到过一些基础知识,但还不够丰满!其实读一篇综述是最好的学习方式,不过英文的毕竟难啃。假如你还是需要深入学习,建议看2009的CELL杂志的超级经典综述:Evolution and Functions of Long Noncoding RNAs
生信技能树
2019/12/31
2.8K0
lncRNA的一些基础知识
lncRNA组装流程的软件介绍之gffcompare
1.输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的
生信技能树
2021/07/06
3.7K0
如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列?
NGS基础 - GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子,内含子,启动子,基因体,非编码区,编码区,TSS上游1500,TSS下游500的序列。下面我们就来示范如何提取这些序列。
生信宝典
2022/01/18
5.5K0
使用refGenome加上dplyr玩转gtf文件
当然,这个gtf是有非常多的值得探索的地方,比如可以完成http://www.biotrainee.com/thread-626-1-1.html 我在生信技能树»生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务›生信编程直播第三题:hg38每条染色体基因,转录本的分布 !
生信技能树
2018/12/24
1.8K0
NGS基础 - GTF/GFF文件格式解读和转换
GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组。 从 Ensembl 导出的GFF文件示例: X Ensembl Repeat 2419108 2419128 42 . . hid=trf; hstart=1; hend=21 X Ensembl Repeat 2419108 2419410 2502 - . hid=AluSx; hstart=1; hend
生信宝典
2018/02/05
11.8K0
NGS基础 - GTF/GFF文件格式解读和转换
原核生物基因预测
在得到了一个物种的基因组序列之后,就可以开始对其序列进行分析了。序列分析主要包括结构基因组分析,功能基因组分析以及比较基因组分析几部分。通过对序列进行全面地分析,在基因组水平上了解一个物种的特点。序列分析主要包括基因预测,基因功能注释,ncRNA,重复序列,特殊功能序列,比较基因组等方面。
生信喵实验柴
2022/10/25
1.7K0
原核生物基因预测
人类参考基因组转录本的秘密
一个小任务,证明在某个文献看到的这句话:The median length of human transcripts is 2186 nt, with the longest transcripts having sizes of up to 101,206 nt. (These numbers are based on UCSC hg19 annotation.) 我希望大家可以基于gencode的v32也测试看看,如果不行,再去找hg19的。意思是希望大家明白,可观规律是很难因为数据库版本更新而改变
生信技能树
2019/11/18
1.9K0
2023.1.11(综述)LncRNA的定义、功能、挑战和建议
这篇文章讨论了lncRNA的定义、命名、保守、表达、表型可见性、功能分析和分子机制,包括lncRNA与染色质结构、表观遗传过程、增强子功能和生物分子凝聚,以及lncRNA在核外的作用。
小张要嚣张
2023/01/11
3.7K0
使用中国区chatGPT解析gtf文件
值得注意的是,里面的 AnnoProbe包是可以根据不同物种的ENSEMBL信息去转为SYMBOL信息,实际上它这个转换是基于我对人类和小鼠的gtf文件的解析。
生信技能树
2023/09/04
4550
使用中国区chatGPT解析gtf文件
转录本融合位点上下游序列获取
通常建议大家对RNA-seq数据使用 STAR-Fusion 来检测转录本融合现象,得到的结果如下:
生信技能树
2019/05/09
1.6K0
关于基因的概念
在我们生物信息学分析中会涉及到非常多的概念,这些概念对于理解分析非常重要,在阅读文献中也常常会涉及到这些概念,这些概念常常让人迷
生信喵实验柴
2022/10/25
1.2K0
关于基因的概念
推荐阅读
相关推荐
鉴定lncRNA流程全套代码整理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验