在上一期节目中,我们深入探讨了三代测序技术在遗传病检测中如何突破二代测序的“盲区”,展现出独特的临床优势。紧接着,李老师便收到了许多一线科研工作者的进一步咨询:“拿到一批珍贵的人类基因组长读长测序数据后,我该如何着手分析?”
别着急,针对这一迫切需求,我们将分几期内容,为大家系统性地拆解三代人类基因组重测序的分析框架,并推荐经过实战检验的“黄金标准”工具。在长读长技术迅速成熟的今天,基因组分析范式正经历着从“短读长逻辑”向“长读长优先”的深刻转变。本系列指南将以2025年4月发表在 Genome Research 上的权威综述 "A Hitchhiker’s Guide to long-read genomic analysis" 为蓝本,帮助大家构建一个全面、标准且前沿的分析思维导图。
从原始信号到最终的生物学注释,一个标准的长读长重测序分析流程大致包含六大核心步骤:1. 碱基识别;2. 质量控制;3. 参考基因组比对;4. 变异检测;5. 单倍型分型;6. 变异注释。 本期节目,我们将率先聚焦前三个基础但至关重要的环节。
第一步:碱基识别(Basecalling)——数据的诞生
分析的第一步,是将仪器捕获的原始物理信号转化为计算机可读的碱基序列(A/T/C/G),这一过程被称为 Basecalling。不同技术平台的处理策略存在显著差异:
PacBio HiFi 平台:
对于 PacBio 而言,从荧光信号到核苷酸序列的初步转换通常在测序仪内部即已完成。仪器输出的原始 subreads 会经过 CCS(Circular Consensus Sequencing) 算法 进行自我校正和整合。这一过程利用了环形测序对同一分子的多次读取,极大地消除了随机测序错误,最终输出准确度高达 99.9%(Q30+)的 HiFi Reads。因此,用户拿到手的通常已经是高质量的 hifi.fastq 或 hifi.bam 文件,无需过多的额外 Basecalling 操作。
ONT 纳米孔平台:
ONT 平台的原始数据是电流信号,必须依赖强大的深度学习算法将其“翻译”为碱基序列。目前主流的工具是 Dorado,它提供了三种精度模式以适应不同的计算资源和科研需求:
关键提示: 无论哪个平台,现代 Basecalling 算法的一个重要特性是同步输出碱基修饰信息(如 5mC 甲基化)。这意味着我们在获得基因组序列的同时,也零成本地获取了表观遗传学数据,为后续的多维组学分析埋下了伏笔。

第二步:质量控制(Quality Control)——数据的体检
与短读长测序相比,长读长数据的质控维度更加丰富且关键。我们需要重点评估四个核心指标:碱基质量值(QV)、读长分布(Read Length)、错误模式(Error Profile)及覆盖度均一性。这些指标直接决定了后续变异检测(尤其是结构变异)的灵敏度与特异性。
在完成全面的“体检”后,根据具体的研究目标,我们需要对数据进行清洗。通常建议过滤掉过短的片段(如 <1kb)和平均碱基质量较低的 Reads(如 ONT 数据中 Q 值较低的部分),以去除噪音干扰,确保后续分析结果的可靠性。
第三步:参考基因组比对(Alignment)——数据的定位
将经过质控的 Reads 精准地回帖到参考基因组上,是变异检测的前提。这一步看似常规,实则暗藏玄机,核心在于参考基因组版本的选择:
总结
至此,我们已经完成了数据的“诞生、体检与定位”。这三步虽然基础,却如同大厦的地基,直接关系到整个人类基因组重测序分析的稳固与精准。
在下一期节目中,我们将进入分析流程的核心深水区——变异检测(Variant Calling)。我们将详细探讨如何利用长读长优势,精准捕捉从小片段 SNV 到大片段 SV 的各类变异。 好了,这期节目就到这里,我们下期见!