Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基因组比对,唯快不破 :原本需要一周完成的9万个基因组比对,现在只需数小时

基因组比对,唯快不破 :原本需要一周完成的9万个基因组比对,现在只需数小时

作者头像
简说基因
发布于 2025-02-28 07:35:59
发布于 2025-02-28 07:35:59
1700
举报
文章被收录于专栏:简说基因简说基因

在比较基因组分析中,探究不同基因组间的进化关系是常态,常用方法之一是借助标记蛋白构建系统发育树。为量化这些关系,我们计算基因组间的相似性或进化距离,以分类物种、比较亲缘等。其中,平均核苷酸相似度(ANI)是衡量两个基因组核苷酸层面亲缘关系的指标,它针对微生物基因组同源片段的平均碱基相似度,尤其擅长区分近缘物种。

传统BLAST比对方法虽然精准,但动辄数小时的计算时间让研究者望而却步,而FastANI的出现彻底改变了这一局面。FastANI通过免比对算法和Mashmap引擎,实现了基因组相似性计算的两到三个数量级加速,让科研人员轻松应对大规模数据分析

功能特点

1. “无比对”高速计算

FastANI采用基于MinHash的Mashmap引擎,将基因组切割成3000bp的非重叠片段进行快速匹配。这种"化整为零"的策略,使其计算速度比传统方法快1000倍以上,100个基因组对仅需几分钟。

2. 全基因组友好

  • • 不论是完整基因组还是草图基因组(如纳米孔测序数据,N50>10kbp),FastANI 的准确性和基于 BLAST 的 ANI 计算方法不相上下。
  • • 默认输出95% ANI阈值,自动过滤低可信度结果,避免噪音干扰。

3. 可视化+矩阵输出

  • • 通过--visualize参数生成基因组映射热图,直观展示保守区域。
  • • 支持输出Phylip格式矩阵文件,便于后续聚类分析。

4. 多模式灵活比对

  • • 一对一、一对多、多对多多种模式,满足不同研究需求。

应用场景

1. 新物种鉴定

快速筛选相似基因组,辅助新物种发现。当发现疑似新物种时,用FastANI比对NCBI数据库,若所有结果<95%即可能为新物种。

2. 进化研究

分析基因组保守区域,揭示物种进化关系。>通过--matrix参数生成phylip格式矩阵,结合R语言pheatmap包绘制热图,直观显示样本亲缘关系。ANI 值越高,说明两个菌株的亲缘关系越近。

3. 工业菌株溯源

在生物制造中,用--visualize参数生成基因组比对图谱,可追踪生产菌株的遗传漂变。

4. 临床检测及病源防控

经FastANI多对多模式快速比对患者分离株,通过ANI值判断病原体是否为耐药株或新变种。通过对比不同地区病原体的基因组 ANI 值,就能知道它们是不是来自同一个源头,从而为防控疫情提供重要线索。

进阶技巧:参数调优手册

参数

适用场景

典型值

--fragLen

病毒等小基因组

500bp

-t

服务器多核加速

32线程

--minFraction

高度分化基因组比较

0.5

--maxRatioDiff

排除水平基因转移干扰

0.05

避坑指南:当ANI<80%时,结果不会输出,此时应改用氨基酸水平的比较工具。

总结

FastANI重新定义了微生物基因组比较的标准——它像基因组的"扫码枪",用速度打破数据量的桎梏,用精度守护物种界限的权威。从临床诊断到环境监测,从基础研究到工业应用,这个诞生于2018年的工具,正在全球实验室掀起一场微生物鉴定的效率革命。对于编程小白,Galaxy云平台(网址:usegalaxy.cn)提供可视化界面,平台自动处理碎片化基因组,即使N50<5000bp的草图也能准确分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基因组相似性计算:ANI
FastANI(https://github.com/ParBLiSS/FastANI)是一个快速计算全基因组ANI的工具,其支持一对一、一对多、多对多基因组之间的两两比较。他将查询序列分割为短序列片段,使用基于MinHash的序列映射引擎Mashmap来计算同源映射并估计一致性。由于它使用了非比对的方法,因此计算速度大幅提升,但准确性与基于blast的方法相差不大。
SYSU星空
2022/05/05
2.3K0
基因组相似性计算:ANI
快速比对、灵活筛选:微生物基因组相似性筛查
在前面的文章中,我们深入学习了如何利用RefSeq Masher Contains快速识别输入数据中可能存在的NCBI RefSeq参考基因组,今天再来学习RefSeq Masher的另一个功能模块——RefSeq Masher Matches。RefSeq Masher Matches只需几分钟就能找到它在NCBI RefSeq数据库中的“近亲”。这个基于MinHash算法的工具,就像给基因组做“指纹识别”,在公共卫生监测、病原追踪等领域大显身手。
简说基因
2025/03/06
1430
快速比对、灵活筛选:微生物基因组相似性筛查
快速创建和评估核心基因组及全基因组多位点序列分型(cg/wgMLST)
在微生物学和基因组学领域,准确地识别和分类细菌菌株是研究的重要部分。ChewBBACA是一个用于创建和评估核心基因组和全基因组多位点序列分型(cg/wgMLST)模式和结果的高效软件套件。ChewBBACA允许我们基于多个基因组定义模式中的目标位点(例如,基于感兴趣物种或谱系的高质量基因组数据集中的不同位点),并执行等位基因调用来确定细菌菌株的等位基因谱。它通过基于BSR(B) 的方法来实现这一目标,不仅能够处理庞大的基因组数据库,还能显著降低计算成本,使得微生物分类变得更加高效和经济。
简说基因
2025/01/14
1380
快速创建和评估核心基因组及全基因组多位点序列分型(cg/wgMLST)
一文详解细菌耐药性生信分析:从下机数据到耐药基因鉴定
细菌耐药性是指细菌对抗生素或其他抗菌药物的抵抗能力。这种现象在全球范围内对公共卫生构成了巨大威胁。随着抗生素的广泛使用,细菌逐渐发展出多种耐药机制,如基因突变、水平基因转移等。因此,研究细菌耐药性变得尤为重要。前面我们前后学习了细菌耐药性分析的相关工具,今天我们就来整理下细菌耐药性生信分析所涉及的常用数据库和工具。
简说基因
2025/01/08
5770
一文详解细菌耐药性生信分析:从下机数据到耐药基因鉴定
单细胞时代 || 宿主-微生物组相互作用
Host-Microbiome Interactions in the Era of Single-Cell Biology
生信技能树jimmy
2021/03/10
1.6K0
单细胞时代 || 宿主-微生物组相互作用
Advanced Science发表人类皮肤微生物基因组综合目录
2023年8月,国家基因库生命大数据平台支撑科研成果在《Advanced Science》发表。该研究题为“Integrated Human Skin Bacteria Genome Catalog Reveals Extensive Unexplored Habitat-Specific Microbiome Diversity and Function”,通过对450个面部样本进行高深度鸟枪法测序,并结合2069个公开的皮肤宏基因组数据集,构建了一个人类皮肤微生物基因组综合目录(UHSG)。UHSG 提供了一个方便的参考数据库,将有助于更深入地了解皮肤微生物在皮肤中的作用。
尐尐呅
2023/10/10
4760
Advanced Science发表人类皮肤微生物基因组综合目录
模糊匹配:让基因序列分析不再「看走眼」
在基因组学研究中,迅速锁定特定的核苷酸序列模式是至关重要的步骤。EMBOSS工具包中的fuzznuc,犹如一把精准的"序列探针",专为协助研究人员高效辨识DNA序列中的调控元件、重复序列等核心区域而设计。今天,我们就一起来深入探索这款功能强大的工具。
简说基因
2025/02/25
1080
模糊匹配:让基因序列分析不再「看走眼」
跟着Nature学细菌耐药基因分析:实时基因组学检测隐藏的抗生素耐药性
这篇文章的生信分析部分用到了之前我们介绍过的 Minimap2、SAMtools等工具,这些工具都能在Galaxy生信云平台(网址:usegalaxy.cn )上方便地使用,不需要安装软件和配置复杂的环境,也无需下载大型的耐药基因数据库。有兴趣的读者可以参考以下文章:
简说基因
2025/02/05
2290
跟着Nature学细菌耐药基因分析:实时基因组学检测隐藏的抗生素耐药性
多位点序列分型(MLST):细菌分类的“DNA指纹”
MLST分型,简单来说,就是通过测定细菌基因组中多个管家基因(如aroA、cobQ等)的核苷酸序列,来进行细菌的分类和鉴定,从而了解它们的遗传背景和进化关系。这些管家基因就像是细菌的“身份证”,每个细菌都有自己独特的序列组合,就像我们的DNA指纹一样。
简说基因
2024/12/29
5980
多位点序列分型(MLST):细菌分类的“DNA指纹”
样本污染检测:比传统方案提前48小时锁定病原体
当你在处理一份土壤样本的宏基因组数据时,突然发现测序结果中出现意料之外的微生物信号——是样本污染?还是新物种的线索?这时候,你需要快速扫描整个NCBI RefSeq数据库以检测污染源。RefSeq Masher Contains正是这样一款利器,它能在数小时内从数万基因组中定位出样本中潜藏的微生物身份。本文将为你揭开这款工具的神秘面纱,首先我们先来了解下REFSEQ数据库。
简说基因
2025/03/06
930
样本污染检测:比传统方案提前48小时锁定病原体
内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战。为了提高基因组的组装性能,本研究采用了Illumina HiSeq与Pacbio混合、超深度宏基因组测序的方法,从12份粪便样品中重建了宏基因组组装基因组。该方法结合了第二代测序以及第三代测序,提高了肠道中低丰度微生物的测序覆盖率。我们共还原了44个Mb级别scaffolds以及4个完整的环状基因组 (CMAG),代表了对应物种下的首个环状基因组。此外,从所有样品中共组装出475个高质量的基因组,其中234个为未培养微生物的基因组,并且有24个不存在于任何一个公共数据库中。值得注意的是,有287个和77个基因组分别为每个个体的低丰度和超低丰度的肠道物种。同时,我们的研究结果揭示了个体特异性的基因组特征,包括微生物基因组生长速率、选择压力以及染色体可移动遗传元件的频率。最终,从宏基因组数据中鉴定出数千个染色体外的可移动遗传元件,包括5097个噬菌体和79个新的质粒基因组。总的来说,本研究方法为从个体水平上对人类肠道微生物群进行更加全面的基因组分析和功能表征迈出了重要的一步。
生信宝典
2022/03/27
8440
内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
【Nature Biotechnology】四篇好文简读-专题1
Mapping single-cell data to reference atlases by transfer learning 论文摘要:
智能生信
2022/05/23
5220
【Nature Biotechnology】四篇好文简读-专题1
如何简单快捷进行SNP分析与可视化
细菌流行病学研究中,SNP数量差异常表征克隆传播,不同细菌对SNP差异的阈值不同,这需要大数据分析来确定。今天给大家介绍的Snipit, 是一款专注于微生物基因组变异检测的工具,特别适用于病原体基因组变异分析。通过比较不同样本之间的单核苷酸多态性(SNPs),Snipit 可以帮助我们追踪病原体的传播路径,识别可能的传播链。此外,Snipit 还广泛应用于比较基因组学、进化生物学、疾病研究和农业生物技术等多个领域。
简说基因
2025/01/07
3980
如何简单快捷进行SNP分析与可视化
分析粪便微生物移植后患者高通量单分子实时测序数据的工作流程
有许多基于测序的方法来了解复杂宏基因组,从全样本鸟枪法测序到靶向扩增。虽然靶向方法在低测序深度提供有价值的数据,但它们受引物设计和PCR限制。全样本鸟枪法通常使用短读长测序,这导致数据处理困难。例如,长度小于500bp的读数很少覆盖完整的感兴趣的基因或区域,所以将需要组装。这不仅引入了来自不同社区成员的序列不正确地拼接的可能性,还需要高覆盖深度。因此,罕见的社区成员可能不会在结果集合中被表示。、
用户1075469
2020/03/03
6090
Roary:高效解析原核生物泛基因组
Roary是一个专注于大规模原核生物泛基因组分析的开源工具,其核心功能是利用由Prokka(参考文章:昨日重现:一个软件,让我想起了生物信息学的黄金时代)生成的GFF3格式的注释组装文件(含核酸序列数据),来计算物种的泛基因组结构。它依赖于Perl脚本和bedtools、cd-hit、ncbi-blast+、mcl、mafft和Fasttree(参考文章:FastTree:构建系统进化树,比快更快)等多个开源工具,这些工具相互交互,确保了分析的高效准确。
简说基因
2024/12/31
3240
Roary:高效解析原核生物泛基因组
生物信息学入门必须了解的名词
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
DoubleHelix
2020/04/21
3K0
物种分类原理
微生物由于形态微小,数目众多,分类鉴定一直都是一大难题,传统的微生物鉴定方法,主要是根据微生物的表型特征,例如形态学、生理生化学,生态学等特征来推断微生物的系统发育。但是由于微生物形体微小、结构简单等特点,微生物的分类鉴定除了传统的分类方法之外,还必须寻找新的特征作为分类鉴定的依据。分子生物学的发展,使我们不仅可以根据表型特征,而且可以从分子水平上,通过研究和比较微生物乃至整个生物界的遗传型特征,甚至生物的基因组特征来研究生物的进化、发育和分类鉴定。
生信喵实验柴
2023/02/24
9960
物种分类原理
跟着Nature学细菌耐药基因分析:多药耐药葡萄球菌的基因特征分析
之前我们一起学习了一系列细菌耐药性分析的工具软件,有不少读者强烈希望后续能多分享点这方面的文章。今天我们就一起来解读下面这篇2024年底发表的Nature论文,学习其中的研究思路和生信分析方法。
简说基因
2025/01/23
2120
跟着Nature学细菌耐药基因分析:多药耐药葡萄球菌的基因特征分析
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。
新智元
2025/03/31
810
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
宏基因组简介
Metagenomics is the study of genetic material recovered directly from environmental samples. The broad field may also be referred to as environmental genomics, ecogenomics or community genomic。
生信喵实验柴
2023/02/24
3.9K0
宏基因组简介
推荐阅读
相关推荐
基因组相似性计算:ANI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档