我正在使用BioPython遍历GenBank文件中的开放阅读框。更具体地说,我考虑了在GenBank中标注为“CDS”的特性。所以我的代码是这样的:
from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')
for feature in gbk_dat.features:
if feature.type == 'CDS':
# Identify coding frame我想知道是否有可能确定一个基因相对于整个基因组在哪个编码框架中?即。如果一个基因从基因组的位置1开始,它就会在编码框架1中,如果它在2开始,在编码框架2中,如果在5,那么框架2也是如此。(我知道我可以相对容易地编写脚本,但我喜欢依赖BioPython,因为它在以后共享代码时往往更干净。)
发布于 2016-03-11 02:33:21
我不能100%确定这是你需要的,但在genbank文件中,CDS区域(与基因相关)将如下所示:
gene 1012..1356
/locus_tag="L_00015"
CDS 1012..1356
/locus_tag="L_00015"
/inference="ab initio prediction:Prodigal:2.6"
/inference="protein motif:Pfam:PF05136.7"
**/codon_start=1**
/transl_table=11
/product="Phage portal protein, lambda family"
/protein_id="C:L_00015"
/translation="MIGVFDKLEERVIGARGIIVEPQPLRKNGEMAAELAADIRRLWA
EWSVSPDVTGQYTRPVLERLLLRTWLRDGEVFAQMVSGAGNGLERTAECHSGLRRWSR
ILFPSPLMNPPD"有一条线(/codon_start=1)告诉你基因的阅读框架。如果您想要自动捕获该信息,您可以使用以下代码来实现:
from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')
for feature in gbk_dat.features:
if feature.type == 'CDS':
print(feature.qualifiers.get('codon_start')))对于重叠的issue...can,你发布了一个示例genbank文件吗?
https://stackoverflow.com/questions/35794047
复制相似问题