基因组结构变异(SVs)包括缺失、重复、倒位、插入和易位等,对人类疾病和个体基因组差异具有重要影响。长读测序技术(如PacBio和Oxford Nanopore)的发展为SVs的检测提供了更有力的工具,但目前缺乏对基于比对和基于组装的SV检测方法的全面基准测试。
数据集:使用11个PacBio HiFi、CLR和ONT数据集、9个模拟长读长数据集和 2 个配对肿瘤-正常 CLR 和 ONT 数据集。
包括HG002样本的高置信度SV基准数据集。
工具:【1】基于比对的SV检测工具:PBHoney、NanoSV、Smartie-sv_aln、Sniffles、SVIM、cuteSV、NanoVar、pbsv、SKSV、Sniffles2、MAMnet、DeBreak。
【2】基于组装的SV检测工具:Dipcall、Smartie-sv_asm、SVIM-asm、PAV。
SV长度分布与检测性能:基于比对的工具在小片段SV(50 bp-1 kb)检测上表现较好,但在大插入检测上不如基于组装的工具。例如,PBHoney和Smartie-svaln在检测大于1 kb的插入时性能下降。基于组装的工具在大片段SV(尤其是插入)检测上具有更高的敏感性,例如,Dipcall、Smartie-svasm、PAV和SVIM-asm在检测大插入时表现优异(图2a-p)。
计算成本:基于比对的工具计算时间较短,通常在3-17 CPU小时之间,且内存占用较小,普遍低于100G。基于组装的工具:计算时间较长,通常在116-863 CPU小时之间,且内存占用较高(图2s-v)。
参数变化对性能的影响:基于比对的工具对(如cuteSV、Sniffles)对评估参数(如断点偏移、序列相似性)敏感,而基于组装的工具(如PAV)和部分混合方法(如DeBreak)在严格参数下仍保持高稳健性(图3a-d)。
低覆盖度对SV调用的影响:基于比对的工具在低覆盖度(5-10×)下,某些工具(如pbsv和Sniffles2)仍能保持较高的基因分型准确性。而基于组装的工具在低覆盖度下,基因分型准确性显著下降,主要是由于组装连续性低和组装断裂。
复杂SV检测:比对工具在复杂SV(如易位、倒位)中表现更优。例如,cuteSV在模拟数据中易位检测F1值达96%,而DeBreak在真实癌症数据中重复检测召回率最高(75%)(图7a-b)。
该研究为不同场景下的工具选择提供了明确指导,例如临床诊断中若需快速分析低覆盖数据,则基于比对的SV检测工具更优;若追求高精度大SV检测,则基于组装方法的工具跟优,但需要较大的计算资源。同时,结果强调了结合多工具结果的必要性,以减少假阳性。