
DRUGONE
准确预测细胞在未测量基因扰动下的转录响应,是理解基因调控机制和指导功能基因组学实验的关键。然而,单细胞 CRISPR 扰动实验(如 Perturb-seq)在规模和成本上存在显著限制。为此,研究人员提出了一种基于扩散模型的去偏预测框架 dbDiffusion,用于在单细胞分辨率下预测未观测扰动的转录响应。
该方法在变分自编码器的潜在空间中,结合扩散生成模型与无分类器引导机制,并引入预测驱动推断(prediction-powered inference)以系统性校正生成模型中的偏差。通过利用已测扰动之间的表达相似性与聚类结构,dbDiffusion 能够可靠生成未观测扰动的平均基因表达效应及其不确定性区间。基准测试表明,该方法在多个 Perturb-seq 数据集上优于现有主流方法,为扩展单细胞扰动实验的分析能力提供了一种可扩展的计算框架。

尽管功能基因组学研究取得了长足进展,仍有大量基因的具体功能和调控机制尚不清楚。单细胞 RNA 测序与 CRISPR 扰动技术的结合,使研究人员能够在单细胞层面解析基因扰动对转录状态的影响,但实验规模受限始终是瓶颈。
近年来,多种计算方法被提出以预测未测量基因扰动的转录响应,包括基于图神经网络、语言模型或单细胞基础模型的方法。然而,已有研究显示,这些深度学习模型在泛化到未观测扰动时往往难以稳定超越简单基线模型,暴露出泛化能力不足和系统性偏差的问题。
在此背景下,研究人员提出 dbDiffusion,目标并非生成逼真的单细胞分布,而是准确估计未测扰动对每个基因的平均效应,并提供统计可解释的不确定性量化。
方法概述
dbDiffusion 由两个核心模块组成:
1)潜在空间建模:利用自编码器将高维基因表达压缩为保留生物信号的低维潜在表示;
2)条件扩散生成:在潜在空间中训练扩散模型,并通过无分类器引导机制,使用扰动嵌入对生成过程进行条件约束。
关键创新在于扰动嵌入与去偏策略:

图1|dbDiffusion 框架。
结果
方法整体性能
在两个大规模 Perturb-seq 数据集上,dbDiffusion 能够稳定预测未观测扰动下的平均基因表达变化,并在多个指标上优于现有方法,尤其在效应较大的扰动场景中表现突出。

图2|基于连续嵌入的扩散生成细胞分布可视化。
去偏策略的有效性
研究人员发现,不同扰动的生成预测往往共享相似的系统性偏差。dbDiffusion 利用同一扰动簇内的已测扰动来估计并校正偏差,从而显著改善对未测扰动平均效应的估计精度。
去偏后的预测结果与真实观测之间具有高度一致性,其置信区间能够有效覆盖真实效应。

图3|扰动与基因的聚类结构示意。

图4|去偏前后预测偏差与置信区间对比。
与现有方法的系统比较
在与多种主流方法的比较中,dbDiffusion 在多数设置下取得更高的相关性,并在不确定性评估方面表现出明显优势。即使在信号较弱的数据集中,该方法仍能维持较为稳健的表现。

图5|不同方法预测性能的相关性比较。

图6|引入去偏后各方法性能的整体变化。
生物学与方法学洞见
进一步分析表明,dbDiffusion 的预测性能高度依赖于扰动嵌入质量。当扰动效应聚类与基因表达聚类高度一致时,模型预测最为准确;反之,嵌入误差会显著影响预测结果。这一现象揭示了数据驱动嵌入与生物一致性在扰动预测中的关键作用。

图7|扰动预测难度与聚类一致性的关系。

图8|未观测扰动映射至已测扰动簇的示意图。
讨论
研究人员提出的 dbDiffusion 为单细胞扰动响应预测提供了一种兼具生成能力与统计严谨性的新范式。与依赖大型语言模型或基础模型的方法相比,该框架更加依赖数据本身的结构信息,具有更强的可解释性和可诊断性。
研究结果表明,预测未观测扰动的关键不在于生成高度逼真的单细胞分布,而在于准确估计平均效应并控制偏差。同时,扰动嵌入质量被识别为决定模型成功与否的核心因素,这为未来发展混合型或自适应嵌入策略提供了重要方向。
总体而言,dbDiffusion 显著拓展了 Perturb-seq 实验数据的可利用范围,为大规模基因功能解析和实验设计提供了有力的计算支撑。
整理 | DrugOne团队
参考资料
E. Shang,Y. Wei, & K. Roeder, Predicting the unseen: A diffusion-based debiasing framework for transcriptional response prediction at single-cell resolution, Proc. Natl. Acad. Sci. U.S.A. 122 (52) e2525268122, https://doi.org/10.1073/pnas.2525268122 (2025).
内容为【DrugOne】公众号原创|转载请注明来源