前面给大家介绍了
我们知道很多circRNA其实是由exon构成的,exon是有编码能力的,因此我们可以推测很多circRNA应该是有编码蛋白能力的。下图所示的circRNA的其中一个功能就是编码蛋白。
事实上,也已经有文献报道过
那么除了直接检测circRNA的蛋白产物,我们能否大规模的预测circRNA的编码蛋白的能力呢?答案是肯定的。目前已经有很多用于预测circRNA编码能力的生物信息学工具。
下图总结了预测circRNA编码能力的一些生物信息学工具。
小编前面已经给大家介绍过其中的ORFfinder和IRESite,这两个工具。这些工具按照其功能大体上可以分为如下三类:
1)在分子生物学中,开放阅读框(Open Reading Frame, ORF)从起始密码子开始,是DNA序列中具有编码蛋白质潜能的序列,结束于终止密码子。对于circRNA而言,至少拥有一条ORF是其能成功编码蛋白的首要条件。
ORF Finder可以按用户提供的序列查找所有可能的ORF。
CPC(编码潜能计算器)是一种广泛使用的算法,可基于六个生物学上有意义的序列特征来评估转录本的蛋白质编码潜能,对编码潜力的预测依赖于使用成对同源性搜索蛋白质证据的序列比对。
PhyloCSF(系统发生密码子替换频率)使用多重比对计算系统进化保守评分确定该序列是否可能代表保守的蛋白质编码区。
CPAT(编码潜能评估工具)是一种无需比对的算法,可以使用逻辑回归基于四个序列特征来区分编码和非编码转录本。结合这些工具进行编码电位预测,可以在很大程度上减少误报。
2)内部核糖体进入位点(Internal Ribosomal Entrance Site, IRES)序列有着特殊高级结构,是一段可以与核糖体结合直接起始翻译的序列,对于没有5’帽结构的circRNA而言,拥有IRES序列也是其有编码蛋白潜力的必要因素。
IRES元素识别,其基于许多IRES的序列和结构是已知的。IRESite是一个数据库,可用于检查细胞内部核糖体进入位点。
CircInteractome数据库允许通过IRES序列研究潜在的circRNA翻译。
IRES finder是一种改进的计算方法,可用于执行IRES的全面搜索。
3)具有编码潜力的circRNA特征分析。
Pfam是用于推定序列同源性搜索的工具,一个域的识别为其功能提供了生物学上的见解。
NetNGlyc 1.0、NetOGlyc 3.1和NetPhos 3.1工具可以预测NG糖基化位点、粘蛋白型O-糖基化位点和磷酸化位点。
CircPro和CircCode建立了集成的生物信息学算法来识别具有蛋白编码潜力的circRNA。
小编后面还会给大家分享其中的一些工具,敬请期待!