在单细胞转录组学(scRNA-seq)领域,基础模型(foundation model)正逐渐成为分析海量单细胞数据的强大工具。这些模型通过自监督学习,能够捕捉复杂基因表达模式,并广泛应用于细胞类型分类、基因调控网络重建等任务。
然而,现有基础模型大多受限于对高表达基因的过度关注,忽略了低表达基因在细胞调控中的关键作用,同时也缺乏对基因功能知识的整合。
近期,一项新研究提出了 scLong —— 一个十亿参数的基础模型,它通过全基因组范围的自注意力机制和基因本体(Gene Ontology, GO)知识的整合,成功克服了这些限制,为单细胞转录组学分析带来了新的突破。
scLong 是一个基于深度学习的十亿参数基础模型,专为单细胞转录组学数据设计。它通过整合基因表达信息和基因功能知识,生成能够捕捉基因之间复杂关系的表示。scLong 的整体架构由三个主要模块组成:基因编码器(Gene Encoder)、表达编码器(Expression Encoder) 和 上下文编码器(Contextual Encoder)。这些模块协同工作,生成每个基因表达元素的综合表示。
基因编码器的核心任务是从基因本体(Gene Ontology, GO)中提取基因的功能信息。GO 是一个结构化的基因功能数据库,它将基因分为三大类:生物过程(Biological Process)、分子功能(Molecular Function) 和 细胞组分(Cellular Component)。scLong 利用这些信息构建了一个基因图(Gene Graph),其中每个节点代表一个基因,边的权重通过计算基因对之间的 Jaccard 相似性得到。基于这个基因图,scLong 应用图卷积网络(GCN)来学习每个基因的功能表示。GCN 通过消息传递机制,使每个基因能够聚合其邻居节点的信息,从而捕捉基因之间的功能关系。
表达编码器是一个多层感知机(MLP),用于处理每个基因的表达值。它将每个基因的表达水平转换为一个固定维度的向量表示。这种表示能够捕捉基因表达的定量信息,为后续的上下文编码提供基础。
上下文编码器是 scLong 的核心部分,它利用自注意力机制捕捉基因之间的长距离依赖关系。自注意力机制允许模型计算基因对之间的相关性,从而捕捉基因之间的复杂交互。为了平衡计算效率和表示质量,scLong 采用了两种不同规模的 Performer 编码器:大型 Performer 编码器用于处理高表达基因,小型 Performer 编码器用于处理低表达基因。这种设计既保留了高表达基因的关键信息,又通过低表达基因的辅助信息丰富了整体的基因表达图谱。
传统基础模型通常只关注少数高表达基因,忽略了低表达基因在细胞调控中的关键作用。scLong 则突破了这一限制,对 28,000 个人类基因 进行自注意力计算,确保了低表达基因也能被纳入分析范围。这种全基因组范围的自注意力机制使得 scLong 能够捕捉基因之间的长距离依赖关系,尤其是那些在细胞调控中起关键作用的低表达基因。
scLong 的另一个重要创新是将基因本体(GO)知识整合到模型中。GO 提供了基因功能、生物过程和细胞组分的结构化描述,使得 scLong 能够在基因表达数据之外,利用丰富的功能信息来增强对基因调控网络的理解。通过图卷积网络(GCN),scLong 学习到的基因表示不仅包含了表达信息,还嵌入了基因的功能关系。这种知识整合显著提升了模型在预测基因调控网络和药物响应等任务中的性能。
为了平衡计算效率和表示质量,scLong 采用了双编码器策略。高表达基因通过大型 Performer 编码器处理,以捕捉基因之间的复杂交互;低表达基因则通过小型 Performer 编码器处理,以优化计算效率。这种设计既保留了高表达基因的关键信息,又通过低表达基因的辅助信息丰富了整体的基因表达图谱。最终,两种编码器的输出通过全长度 Performer 编码器进行融合,生成每个基因的最终表示。
scLong 在 4800 万个单细胞数据上进行了预训练,覆盖了人类基因组中的 27,874 个基因。这种大规模预训练使得 scLong 能够学习到基因表达数据中的通用模式和复杂关系。在下游任务中,scLong 通过微调(fine-tuning)适应特定任务的需求,展现出强大的泛化能力和适应性。
在多个下游任务中,scLong 展现出了卓越的性能。例如,在预测基因表达对遗传和化学扰动的响应时,scLong 显著优于现有的基础模型(如 Geneformer、scGPT 和 scFoundation)以及专门的任务模型(如 GEARS 和 DeepCE)。在遗传扰动预测任务中,scLong 在多个测试场景下均取得了更高的皮尔逊相关系数和更低的均方误差(MSE),尤其是在训练数据中未见过的扰动条件下,其泛化能力尤为突出。
在癌症药物响应预测方面,scLong 同样表现出色。通过对癌症细胞系的基因表达数据和药物分子结构的联合分析,scLong 能够准确预测药物的半抑制浓度(IC50),其预测结果与实验数据的皮尔逊相关系数达到了 0.873,显著高于其他模型。此外,在预测药物组合协同作用的任务中,scLong 的曲线下面积(AUROC)也超过了现有的任务模型 DeepDDS。
scLong 具有广泛的应用前景:
文献:
https://doi.org/10.1101/2024.11.09.622759
代码:
https://github.com/BaiDing1234/scLong