高效宏基因组ARGs分析方法简介
盼望着,盼望着,2019来了,再有十几天就能春节放假啦~
大老板呵呵一笑,指了指门口的通告:“未完成课题者,不予准假。”
心口一痛——学海茫茫,能遇见这样负责任的大老板,我是何等的三生有幸:他治学之严谨,教化之严格,为我树立了一个勤勉的学者榜样——“我爱工作!!!!!”
“我想回家!!”
我亲爱的王老师,总能在我最迷茫的时候为我指点迷津……
王老师说,苦难是生活的常态,所以人们都渴望找到捷径,你不妨试试ARGs-OAP方法,从环境样本的海量宏基因组数据中,高效搞定抗生素耐药基因(ARGs)的定量及准确性问题——
“真的可以么?”我的心中重燃起希望……
如果公共数据库检索起来太费时费力,不妨做一个新的数据库,就像ARGs-OAP这样:
First of all, 基于ARDB及CARD数据库优化集成的数据库:
ARGs数据库集成:
1:利用CARD及ARDB数据库集成ARGs数据库(包含CARD的2513条蛋白序列及ARDB的7828条序列)
2:去除非ARG的序列
3:去除冗余序列(保留100%同源的序列,此步骤之后仅保留了4401条序列)
4:去除SNP相关的序列
5:获得SARG数据库
6:对SARG数据库进行类型-亚型-参考序列的划分
在数据分析上,研究者开发出了ARGs-OAP流程,有两部分构成(如下图):
1:使用本地计算机对潜在ARGs序列进行预筛选,以减少在线注释的序列文件大小。
2:利用在线平台进行ARG序列注释和分类。
基于这样的流程构建出的SARGs数据库,其效用如何?利用其ARGs-oap流程开展的抗性基因注释,效果又如何呢?
首先,对研究构建出的SARG数据库进行评估:在对所有序列进行分类和验证后,SARG数据库共含有23个大的ARG类型,共计1227个ARG亚型和4246条参考序列,在ARG亚型中有超过72%的亚型(887种亚型)属于β-内酰胺抗性(共计1497条序列),之后是广谱抗性(935条序列)和氨基糖苷类抗性(275条序列)。数据库统计情况如下图:
接着,采用模拟数据集评价ARGs-oap流程进行ARG注释的情况:研究评价了数据库完整性、BLASTX使用的特征值(即E值、标识和命中长度)和序列长度对ARGs注释的影响:
利用两个模拟数据集评价数据库完整性的影响——数据集1含有一些ARG集成数据库的序列和一些非arg序列,数据集2除了1的部分外还增加了Swiss-Port中不包含在ARG集成库的ARG序列——集成ARG库对数据集1而言是完整的,对数据集2而言不完整。结果表明,当数据集含有新的ARG序列时,如果识别特征值在60%以上,MCC值(马修斯相关系数)显著降低(下图a,b);在这个临界点,灵敏度也大大下降(图d,e),但是数据库的不完整性对注释的精确度影响不大(图g,h)。
E值等对ARGs注释的影响也进行了评估:结果表明,MCC值和精密度随E值的降低而增加,但灵敏度变化不大(下图)。
在E值为1e-7,特征临界值60%下评价序列长度对ARG注释的影响:结果显示,当命中长度小于序列长度的85%时,对灵敏度和MCC值的影响很小但当命中长度从85%增加到100%时,灵敏度和MCC值急剧下降,表明如果选择一个更严格的命中长度,研究将丢失更多的ARGs样序列信息。此外,考虑到读长造成的序列长度差异,进一步评估发现,长读取会有较高的MCC及灵敏度——MCC值,灵敏度及精确度在type水平比亚型水平更高。
总的来说,较长的读取长度、较高的同一性和较低的E值降低了干扰率,而较长的序列提高了注释的准确性,引用数据库的完整性对注释结果有显著的影响。整合上述结果,E值为1e-7,识别率为60%是在当前版本的SARG库中进行ARG注释,考虑MCC值、灵敏度和精密度三方面均衡良好的最适宜条件。
利用宏基因组数进行ARGs注释的ARGs-OAP:如前所述,第一步是在用户的本地计算机上使用UBLAST从元组数据集中预先筛选潜在的args序列,然后进行第二步的序列注释,利用在线分析平台上传潜在ARGS序列后进行分类注释。该流程支持多样本分析,并可生成ARG丰度表,该丰度表会经过宏基因组数据中ARG参考序列长度,16s rRNA基因及细胞数量统计的标准化矫正,结果包括:1.所有上传样本的ARGs丰度表(该信息经过与其他参考宏组学数据比较,在类型、亚型水平上经过16S rRNA基因数的归一化处理);2.经细胞数矫正归一化的ARGs丰度;3.上传样本数据与参考数据库在亚型水平的PCoA分析结果。
最后的最后,ARGs-oap流程的耗时也进行了评估,利用三种不同类型宏基因组数据(均为100bp长度的序列10M reads)进行流程运算,进行潜在ARGs序列及16s rRNA基因预筛的耗时在105-124min之间(64位UBlast,本地计算机单线程处理,每个数据集1000万次读取)。通过此研究提供的脚本,将三个样本数据集合并为一个大数据集,这样序列数相比于其他原始数据集有了显著的降低。
凌恩生物2019新春献礼——新推出宏基因组抗生素耐药基因分析服务,采用升级版ARGs-OAP v2.0分析,增加更多参考序列的SARG v2.0版数据库,新隐马模型ARG预测模块及新的细胞数计算方法,给您更好的宏基因组抗性基因分析体验。高效搞定科研数据分析,放假早回家哦!
凌恩生物成立于2014年初,专注组学技术在科研领域的应用于研究。公司成立以来,技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。
秉承“以客户需求为本,为客户创造价值”的服务宗旨;以高品质、高效率的技术服务,用心打造凌恩品牌,助力您的成功!
领取专属 10元无门槛券
私享最新 技术干货