前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >当结构变异遇到三代测序会有什么故事

当结构变异遇到三代测序会有什么故事

作者头像
生信菜鸟团
发布2025-03-29 13:56:11
发布2025-03-29 13:56:11
650
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

研究背景

基因组结构变异(SVs)包括缺失、重复、倒位、插入和易位等,对人类疾病和个体基因组差异具有重要影响。长读测序技术(如PacBio和Oxford Nanopore)的发展为SVs的检测提供了更有力的工具,但目前缺乏对基于比对和基于组装的SV检测方法的全面基准测试。

研究方法

数据集:使用11个PacBio HiFi、CLR和ONT数据集、9个模拟长读长数据集和 2 个配对肿瘤-正常 CLR 和 ONT 数据集。

包括HG002样本的高置信度SV基准数据集。

图片
图片

工具:【1】基于比对的SV检测工具:PBHoney、NanoSV、Smartie-sv_aln、Sniffles、SVIM、cuteSV、NanoVar、pbsv、SKSV、Sniffles2、MAMnet、DeBreak。

【2】基于组装的SV检测工具:Dipcall、Smartie-sv_asm、SVIM-asm、PAV。

图片
图片
图片
图片

研究结果

SV长度分布与检测性能:基于比对的工具在小片段SV(50 bp-1 kb)检测上表现较好,但在大插入检测上不如基于组装的工具。例如,PBHoney和Smartie-svaln在检测大于1 kb的插入时性能下降。基于组装的工具在大片段SV(尤其是插入)检测上具有更高的敏感性,例如,Dipcall、Smartie-svasm、PAV和SVIM-asm在检测大插入时表现优异(图2a-p)。

图片
图片

计算成本:基于比对的工具计算时间较短,通常在3-17 CPU小时之间,且内存占用较小,普遍低于100G。基于组装的工具:计算时间较长,通常在116-863 CPU小时之间,且内存占用较高(图2s-v)。

图片
图片

参数变化对性能的影响:基于比对的工具对(如cuteSV、Sniffles)对评估参数(如断点偏移、序列相似性)敏感,而基于组装的工具(如PAV)和部分混合方法(如DeBreak)在严格参数下仍保持高稳健性(图3a-d)。

图片
图片

低覆盖度对SV调用的影响:基于比对的工具在低覆盖度(5-10×)下,某些工具(如pbsv和Sniffles2)仍能保持较高的基因分型准确性。而基于组装的工具在低覆盖度下,基因分型准确性显著下降,主要是由于组装连续性低和组装断裂。

图片
图片

复杂SV检测:比对工具在复杂SV(如易位、倒位)中表现更优。例如,cuteSV在模拟数据中易位检测F1值达96%,而DeBreak在真实癌症数据中重复检测召回率最高(75%)(图7a-b)。

图片
图片

总结

该研究为不同场景下的工具选择提供了明确指导,例如临床诊断中若需快速分析低覆盖数据,则基于比对的SV检测工具更优;若追求高精度大SV检测,则基于组装方法的工具跟优,但需要较大的计算资源。同时,结果强调了结合多工具结果的必要性,以减少假阳性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究背景
  • 研究方法
  • 研究结果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档