上次咱们聊到掌握生信水平的四种境界:第一种就是掌握和利用网页版或者成熟傻瓜软件来做一些基本的分析。大家不要觉得这个水平有多low,照笔者来看,能达到这个水平就已经对大部分的研究来说无忧了,比如BLAST,基因Annotation,蛋白预测,序列比对,基因簇比对等等。这些分析已经有很多成熟的网页版工具。
从这周开始我就结合实际应用每次介绍一个技能,然后同时给出一些小麦生信方面非常基础的信息资料供大家学习参考。
Case Study 1:通过QTL mapping的方法找到了一个抗病QTL,所用的marker是90K SNPs,那接下来我们想知道1).我们的这个QTL具体的物理图谱位置;2).设计更多marker做fine mapping。
假定QTL的peak marker是“wsnp_be352570B_Ta_2_1”,想知道具体物理图谱,首先就要知道它的序列,所以就用到下面这个网站(其实有很多方法可以查marker的序列,我提供的这种方法主要是让大家了解更多的工具网站):T3-Wheat:https://triticeaetoolbox.org/wheat/,在网站主页左边搜索栏中输入marker名字,然后一步步进到marker details页面,如下。
通过这个图片大家知道这个网站的强大了吧,大家可以多点点里面的链接,你可以发现另一篇天地的!我们言归正传,进这个网站主要是为了获取marker序列,有了序列,就要进入下一个数据库了,IWGSC的官方BLAST网站,所用的数据库就是最新的RefSeq1.0(https://urgi.versailles.inra.fr/blast_iwgsc/blast.php),复制粘贴序列如下,
这里要注意把marker序列中[C/T]用C或T替换,其它选项大家应该都能明白,设置好了,点击Basic Search,结果如下,至于Identities,percentage,和Evalue的作用大家多用几次就能知道,总之一般选择排名第一的(当然排名靠后的序列可以让我们知道所搜的这段序列的同源性以及是否多copies等特征)。根据下表,我们的marker在7BS上,具体的物理图谱位置是136313029,也就是在136Mbp左右。
重点强调两个小tips:1.右键点击基因或者任何其它marker都可以获取更多详细信息;2.点击每个栏目的小三角就可以下载对应的信息了(下图),比如下载7BS上从100M到200M(也就是我们这个QTL大的区间)上所有gene,所有序列,这些都可以做到。
好了,我们第一个目的已经超额完成任务了,那第二个目的就是想在我们的QTL区间内设计更多marker,其实就是利用界面左方的Markers栏目(下图),逐一点击就可以得到这个区间内很多markers,尤其是这个Axiom 820K marker,具体可以参见http://www.cerealsdb.uk.net/cerealgenomics/CerealsDB/axiom_download.php,这也是一个巨好无比的小麦生信网站!!!利用所找到的820K marker序列信息,设计CAPS或者KASPmarker就可以做fine mapping了。当然现在真正做基因克隆的项目都开始用target capture或者exome capture了,但对于很多育种实验室来说90K和820K也足够了。
大家看到这可能觉得这有什么难的,so easy!其实非也!小编我是一个实实在在的人,做研究也喜欢踏实一点,所以特别为大家准备了一顿丰富的小麦生信基础大餐。今天的第二条推送主要就是介绍一下小麦序列的各种数据库,其中就包括今天所介绍的IWGSC RefSeq 1.0以及前段时间群里小伙伴聊到的在plants.ensembl.org上边的TGAC版本。当然了,这其中最新最全的还是IWGSCRefSeq 1.0,平常大家还是要首选这个数据库,但是当你的序列在这个版本上查不到或者你的geneticmap跟RefSeq线性关系很差的时候,就必须要试一试其它的版本了。更重要的是,像一些小麦基因表达数据库或者小麦TILLING数据库并不是按照最新的IWGSCRefSeq 1.0来annotation的,所以说掌握了小麦数据库的各种版本才能在以后的学习过程中游刃有余!
领取专属 10元无门槛券
私享最新 技术干货