BLAST是在蛋白质数据库或者基因数据库中进行相似性分析的工具,全称Basic Local Alignment Search Tool,分析的结果是以统计评分的方式呈现。
那么,为什么要做BLAST呢?因为我们要看看自己设计的引物特异性到底怎么样,这直接关系到后期PCR能否顺利进行。
所以,到底该怎么操作和解读BLAST呢?
本文,小编将以“核酸序列BLAST的操作过程和结果解读”为例,做一说明。
1
—
BLAST网址
打开浏览器输入以下网址:
https://blast.ncbi.nlm.nih.gov/Blast.cgi
见到以下界面后,顺手点击Nucleotide BLAST。

2
—
开始BLAST
点击Nucleotide BLAST,跳转至以下界面:

在Enter Query Sequence栏中输入引物序列:
(注:小编以文献报道的Col1a1引物为例,以验证该引物质量如何。文献提到的上游引物序列为5‘-GCTCCTCTTAGGGGCCACT-3’;下游引物序列为5’-ATTGGGGACCCTTAGGCCAT-3’。)
两种输入方法。第一种是简便的输入方法,即同时输入上下游引物。输入上下游引物系列都从5’-3’顺序输入。输入上游引物后,加上≥20个字母n,再输入下游引物,如下图:

第二种方法是单独输入上游或者下游序列。这里,小编选择单独输入上游序列进行操作。如下图:

下方Choose Search Set栏中的Database根据预操作基因的种属确定,本引物是小鼠的,因此选择如下。若是人类引物,可选Human genomic + transcript。

在Program Selection中:选择Somewhat similar sequences (blastn)项,如下图:

下面的参数设置很关键
点击Algorithm parameters参数设置,进入参数设置界面。

在General Parameters中:Expect thresshold期望阈值须改为1000或大于1000;在Word size的下拉框将数字改为7,其它参数默认即可。如下图:

把这些参数都设置好之后,点击Blast。等待一段时间,待页面完全稳定后得到如下结果。

3
—
结果解读
文章开始提到,BLAST结果是以评分的方式呈现。因此解读这些评分是很重要的。最主要的是5个指标,即E值、Total Score、Identities、Gaps。
那么这几个指标在哪里看,该怎么解读呢?
E值
在Description栏,我们可以总览结果(如下图),E值是默认按照由低到高的顺序排列。E值代表的是被比对的序列不相关的可能性,因此E值越小,代表序列相关性越大,随机匹配的可能性越低。若是E值无限趋近于0,则表示我们要检测的序列是完全匹配的,是可用的。

Total Score
同理,我们也可以在在Description栏,总览Total Score(如下图)。分值越高,代表你说检测的序列特异性越好。大家可以看到,结果也是按照分值从高到低排列的。

点击Graphic Summary,可以看到分值高、特异性较好的序列,黑线段越宽越长,点击线段可以快速进入详细该序列详细信息界面。如下图:

此外,如果你在之前同时输入两段序列进行BLAST。此时,点击Graphic Summary,可以看到分值高、特异性较好的序列之间形成连线。
图中两线段间有连线的代表这些序列与上游引物匹配、并且与下游引物互补,理论上可以扩增出基因片断。没有连线的,表示单条引物与该基因一致。

补个题外话,Alignment Scores不同颜色显示了不同得分。如果你设计的引物序列很不好,可能出现多种颜色线段。本例中,小编所用的序列是一段经典的序列,所以颜色是一致的。需要注意的是,颜色均为黑色,并不代表你的引物不好。判断引物好坏需要综合上述5个指标。

Identities
即匹配上的序列长度占中序列长度的百分数。例如点击排在最前面的序列结果进入Alignments界面,如下图。可见序列总长度为19,被匹配的有19,匹配度100%。

Gaps
即插入的或者缺失的碱基数量。一旦插入或缺失的碱基数量太多,那么必然这个引物就是不合格的。上面提到,我们的引物序列匹配度100%,自然而然,Gaps值就是0了。

最后
别忘了再看看你选定的序列结果是否为你的目标基因。
