首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >脚本分享—gbk文件中提取蛋白质序列以及注释信息

脚本分享—gbk文件中提取蛋白质序列以及注释信息

作者头像
用户1075469
发布2025-05-09 12:32:31
发布2025-05-09 12:32:31
3200
举报
文章被收录于专栏:科技记者科技记者

脚本简介

本脚本用于从 GenBank(GBK)格式文件中提取蛋白质序列,并将结果输出为 FASTA 格式文件。主要功能包括:

  • 提取 CDS 区域的蛋白质序列
  • 可根据参数选择是否在序列标题中附加蛋白质的功能注释

该脚本适用于基因组注释分析、蛋白质功能预测等常见生物信息学任务。

安装biopython模块:

代码语言:javascript
复制
# 使用pip安装
pip install biopython
# 使用conda安装
conda install -c bioconda biopython

查看脚本帮助文档:

代码语言:javascript
复制
python Gbk_extea_protein.py -h

脚本使用方法:

1)脚本准备文件如下图所示

2)注意事项

  • GBK文件从NCBI GeneBank数据库下载,文件中必须包含蛋白质文件;
  • 对于基因组较大的真核生物,如人基因组,gbk文件有多个染色体组成,不包含蛋白序列文件,这样的gbk文件无法使用脚本提取蛋白质序列;
  • 程序依赖于biopython模块,需要提前安装好;

实战演习

代码语言:javascript
复制
# 只提取蛋白质序列和蛋白质ID
python Gbk_extea_protein.py -g NC_000913.gbk -a F -o NC_000913_protein.faa
# 提取蛋白质序列以及序列的注释信息
python Gbk_extea_protein.py -g NC_000913.gbk -a T -o NC_000913_protein.faa

结果展示

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档