这里借助biopython模块
参考链接是 https://biopython.org/wiki/GFF_Parsing
这里BCBio模块里GFF()函数解析的内容和Bio模块里SeqIO()函数解析的内容很像...cds和外显子的关系
cds 是 coding sequence 的缩写
具体关系看下图 来自链接 https://www.jianshu.com/p/cc5cd7053d6e
?...image.png
开头结尾的外显子区可能会比cds长 ,因为开头结尾的外显子可能包括 UTR,非翻译区
处于中间的外显子和cds等同
首先是根据gff文件获取每条染色体的长度
from BCBio import...image.png
统计每个蛋白编码基因有几个转录本
这里需要记住的是每个feature对应的还有sub_feature这个是和SeqIO解析genbank文件有差别的地方
gene对应的 sub_features...,这个逻辑暂时没有想明白,代码是
list_given = [1, 2, 3, 4, 5, 6, 7, 8, 9]
index_to_delete = [1, 3, 6]
for counter,