做科研有三种痛不能忍,一是脑袋空空没思路,二是辛辛苦苦没成果,三是别人轻轻松松发文章。今儿先和大家聊聊第一种痛,关于课题思路方面的事儿,我们选了基因研究为主题,为啥?生信火,大数据火,这两个都绕不开基因。
所以你的日常可能是这样的:
1 花了老大笔钱测了序,筛了一堆让人傻眼的基因,接下去怎么做?
2 挖了数据分析了半天,还是一堆看不出所以然的基因,接下去呢?
3 看文献相中了一个感兴趣的基因,那我可不可以就研究这一个?
归纳一下就两个问题:1、怎么确定一个基因可以研究;2、基因确定后,又该怎么研究。
这两个问题也是老生常谈了,但攻略干货看起来简单,回归到实际问题还是得文献、数据库来回翻。你肯定要说:哼,还用你说!谁都知道!可是文章那么多,从何查起呢?是否存在什么工具,可以通过任何一个基因,就能直接出文章思路的呢?
这里我就找到了一个神器:基因雷达(图 1),非常适合文献和数据库不对付的亲,只要输入你感兴趣的基因,基因的科研热度,相关疾病,调控网络和在癌症中的表达值四个层面就全出来了,可以帮你快速理清思路。似乎从此可以脱离苦海了(兴奋)!
图1:单基因雷达页面
如何省时省力确定一个基因可以做
先看差异表达。比如说你翻翻文献看到了一个还不错的基因CCL5 (PMID:17914389,乳腺癌),也想研究下,但自己没有数据,不知道这个基因在你研究中的疾病到底是个什么情况。
不用翻TCGA,你就可以在基因雷达中中查看CCL5在33种肿瘤中正常组织和癌组织的表达情况。在搜索框中输入CCL5,选择表达概况,就可以得到下面的结果。
图2:单基因雷达-表达丰度图页面
CCL5在乳腺癌转移中有重要作用,通过下面数据可以推测CCL5在某些肿瘤中高表达也可能具有转移作用,比如膀胱尿路上皮癌(BLCA)。
再看研究概况。有数据依据了,那CCL5别人都研究到什么程度了呢?这时你可以通过工具中的科研热度来看。科研热度根据基因在数据库中的注释情况,从相关文献、通路、功能、已验证的靶向miRNA、和疾病五个角度来统计和评价基因研究情况。
图3:单基因雷达-全景雷达图页面
绿点:在信号通路层面CCL5参与数量的相对位置,
灰点(中位数):基因在参与信号通路数量层面中间水平的位置。
1.相关文献:被文献报道的总次数;
2.通路:即根据KEGG数据库统计基因参与的通路的数量;
3.功能:即根据GO数据库(Gene Ontology,基因本体学数据库),统计基因参与的功能(生物过程)的数量。
4.已验证的靶向miRNA:已经有文献发表验证的miRNA的数量。
5.疾病:已经有文献发表的疾病数量。
从上图绿色包围灰色的形势看,这个CCL5也算研究的热门了。点击相应的内容,可以进入到对应的数据界面了解更详细的信息,做到数据溯源,找到原始文献。
那CCL5都在哪些疾病中研究过了呢?点击“disease”就可以跳转到相关疾病界面, “神器”统计了基因的研究最多的疾病TOP 20。我们关注CCL5在癌症转移方面的研究,找到“癌症转移”,不算太多,点击即可进入文献详情页面。
图4:单基因雷达-疾病雷达图页面
确定基因后如何快速确定下一步怎么做
关于基因与疾病的高分文章都有这么一个经典研究思路:A基因通过B通路在C疾病中发挥D功能。在第一步当中,通过全景雷达图和疾病雷达图确定了A基因和C疾病,接下来寻找B通路,了解一下CCL5基因是如何调控该疾病的
基因雷达从基因相关的转录因子、miRNA、lncRNA 和上下游相关基因的四个角度(基本上差不多的机制都涵盖了)来展示基因与基因间的关系。
同样,直接点击某一个基因就可以看到两者(比如说 CCL5 和 CCR6)具体的调控关系。
图5:单基因雷达-调控网络图页面
1. 转录因子:已经有文献报道的相关转录因子;
2. miRNA:已经有文献报道的相关miRNA;
3. lncRNA:依据文献挖掘可能有关的lncRNA;(准确性较弱)
4. 上下游相关基因:依据KEGG数据库的基因上下游关系。
想我之前看个几十篇文献,结果发现还不如这张图总结得好。现在省了我好多查文献的时间,不由感叹:工具就是为人类提供便捷的啊!
得到一个基因,将其按照A基因通过B通路在C疾病中发挥D功能的思路去研究是比较经典的。但,“知识点!知识点!(敲黑板)”,我们还可以创新一下,用“神器”对这个基因往上游研究,去找转录因子。
基因雷达可以基于每个基因的转录本(Ensembl数据库GRCh38版本)对起始位点上游2000bp下游500bp通过Transfac数据库进行转录因子预测结果,获得对应转录本相关的转录因子结果。
看下图↓↓,直接给出了预测的转录因子+可能的甲基化位点+SNP位点!
图6:单基因雷达-转录因子预测图页面
1. 预测评分:基于Transfac数据库的2个预测分值后的整合分值。(分值越接近于1可靠性越高)
2. 区域是否存在甲基化位点:基于COSMIC数据库的甲基化信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在甲基化位点。
3. 区域是否存在SNP位点:基于dbSNP数据库的SNP信息对预测出来的转录因子的结合区域进行注释,判断该结合区域上是否存在SNP位点。
4. 推荐度:依据Transfac数据库的预测分值和COSMIC数据库以及dbSNP数据库是否存在对应注释信息整合出推荐度;以推荐度来表示预测出来的转录因子的科研价值,推荐度越高越好。
将单基因雷达的功能看完,是不是感觉扔一个基因进去,感觉一篇文章都出来了呢!
另外,我还发现了升级版的功能-多基因雷达(图7),可同时查询多个基因之间的研究情况,最高支持 500 个基因同时查询!
比如说,你手上有一堆基因,然后根本不知道他们和自己的课题到底有没有关系或怎么能扯上关系,但不用管,扔进去吧,它会返回给你相关疾病、核心网络、关联网络、相关miRNA、相关转录因子5个层面的信息。
图7:多基因雷达页面
如此“神器”,怎么获得呢?搜索GCBI,进入官网(图8)就可以在线使用啦
图8:GCBI官网
基因雷达功能强大得让我对GCBI产生了浓烈的兴趣,上网一搜才发现他们是专业做医学数据库的,各方面资质都还不错。
GCBI平台拥有医学文献检索、基因雷达、数据+(样本信息数据库)和分析实验室四大板块,拥有2900 多万篇医学文献(文献和 NCBI 同步更新)、170 万份样本数据、50 多个注释库以及众多的分析模块,满足用户全面的临床应用和科研需求。
对了!GCBI的文献搜索功能也是很智能,系统能够自动提炼每篇文献包含的相关基因。找文献、看文献省辣么多时间,可以快速开课题啦!
领取专属 10元无门槛券
私享最新 技术干货