
BioCode(https://ngdc.cncb.ac.cn/biocode)是一个专注于归档生物信息学工具代码的开放式集中仓库,收录了多种用于数据分析的生物信息学工具,并为每个工具提供详细元数据,包括名称、描述、类别、相关项目、发表论文、引用次数、开发者联系方式及所属机构。截至2024年8月,BioCode已收录7,310款工具,来源包括用户提交和对主流生物信息学期刊的自动文献筛选。BioCode支持用户自主提交工具,方便开发者托管代码、软件包和文档,提升工具的公开性和可检索性,为开发者和用户提供高效的工具存档、传播和获取服务。
今天我们从使用层面聊一聊此数据库吧。

和多数数据库一样,Biocode 支持根据需求进行搜索,自己不想写或者不会写代码的都可以从数据库中寻找是否有自己需要钱的软件或代码,这次我以这个主页推荐的高下载软件 'LGC' 为例来展示一下查看和使用。

点击寻找的工具即可以进入工具到详情页,最左边的选项卡可以跳转到其他页面,主页面有很多板块,记录了不同的信息。

这一部分就是代码的使用说明了,包含以下几个内容:

这个就是包下载地址,一会教你怎么用。

对于老手来说,根据工具操作手册完全可以完全运行了,可以跳过这部份了,这次我就出一个新手友好版的使用手册吧,
假如我们要使用一个代码或者软件,首先我们就得看一下应该选择什么运行平台,在工具详情页面可以看到此工具使用的是 Linux 平台的 Java 或者 Python3.

在使用手册部份有安装说明,我们就可以根据说明一步步安装啦。

目前来说,基本所有配置好的平台都有安装配置好的 Pythion3,没有安装的可以使用 conda 进行安装,安装好的可以查看一下。
$ python3 --version
Python 3.11.13

$ ls
LGC-2.0.tar.gz
$ tar zxf LGC-2.0.tar.gz
$ ls
LGC-2.0.py LGC-2.0.tar.gz ORFfinder
根据说明输入文件是一个 FASTA 格式文件。我从 NCBI 下载了一段 TP53 基因的序列作为示范。



下载后找找到这个文件,放到 Linux 平台文件夹中。

$ ls
LGC-2.0.py LGC-2.0.tar.gz ORFfinder gene.fna
$ python LGC-2.0.py gene.fna output.txt
Input: gene.fna
Output: output.txt
Scan ORF ...
ORFfinder analysis completed.
Done
Computation time 0.029686689376831055 senconds
上面的运行代码中我们指定结果输出到名为 outpt.txt 的文件中,可以打开查看其内容。因为输入文件是有两条 fasta 序列的,所以输出也是两个。
