2025年10月15日 · 阅读时间4分钟
推出一个基于Gemma系列开源模型构建的、用于单细胞分析的新型270亿参数基础模型。
今天,作为与某大学研究合作的一部分,发布了Cell2Sentence-Scale 27B(C2S-Scale)——一个旨在理解单个细胞语言的新型270亿参数基础模型。该模型基于Gemma系列开源模型构建,代表了单细胞分析的新前沿。
此次发布标志着人工智能在科学领域的一个里程碑。C2S-Scale生成了关于癌细胞行为的新假设,并且已经在活细胞中通过实验验证证实了其预测。这一发现揭示了一条有前景的、用于开发抗癌疗法的新路径。
本次发布基于今年早些时候的工作,当时证明了生物模型遵循明确的规模法则——与自然语言一样,更大的模型在生物学任务上表现更好。这项工作提出了一个关键问题:更大的模型仅仅是在现有任务上表现更好,还是能够获得全新的能力?规模化的真正前景在于创造新思想、发现未知。
C2S-Scale 27B 的工作原理
癌症免疫治疗的一个主要挑战是许多肿瘤是“冷”的——对人体免疫系统不可见。使它们“热”起来的一个关键策略是通过一种称为“抗原呈递”的过程,迫使它们展示触发免疫的信号。
向新的C2S-Scale 27B模型提出了一项任务:找到一种作为条件性放大器的药物,这种药物仅在特定的“免疫环境阳性”背景下增强免疫信号——该环境中已存在低水平的干扰素(一种关键的免疫信号蛋白),但不足以单独诱导抗原呈递。这需要一定水平的条件推理,这似乎是规模化带来的涌现能力;较小的模型无法解析这种背景依赖效应。
为了实现这一目标,设计了一个双重背景的虚拟筛选来寻找这种特定的协同效应。虚拟筛选包括两个阶段:
然后模拟了超过4,000种药物在这两种背景下的效果,并要求模型预测哪些药物仅在第一种背景下增强抗原呈递,从而使筛选偏向于患者相关环境。在模型突出显示的众多候选药物中,有一部分(10-30%)已在现有文献中已知,而其余药物则是令人惊讶的、之前与筛选无关的新发现。
从预测到实验验证
模型的预测是清晰的。它识别出一种名为silmitasertib(CX-4945)的激酶CK2抑制剂出现了显著的“背景分裂”。模型预测,在“免疫环境阳性”背景下应用silmitasertib时,抗原呈递会显著增强,而在“免疫环境中性”背景下则几乎没有效果。这一预测令人兴奋之处在于它是一个新颖的想法。尽管CK2已被证明参与多种细胞功能(包括作为免疫系统的调节剂),但文献中尚未报道通过silmitasertib抑制CK2来明确增强MHC-I表达或抗原呈递。这突显了模型正在生成一个可检验的新假设,而不仅仅是重复已知事实。
然而,预测只有在能够通过临床应用验证时才有价值。真正的考验首先在实验室,最终在临床。
在项目的下一阶段,将该假设带到实验室工作台,并在人类神经内分泌细胞模型(模型在训练期间完全未见过的细胞类型)中进行测试。实验证明:
值得注意的是,在实验室测试中,silmitasertib与低剂量干扰素的组合使抗原呈递增加了约50%,这将使肿瘤更容易被免疫系统识别。
模型的计算机模拟预测在体外多次得到证实。C2S-Scale成功识别出一种新型的、干扰素条件性的放大器,揭示了一条使“冷”肿瘤变“热”的新潜在途径,并可能使肿瘤对免疫治疗更具反应性。虽然这只是早期第一步,但它为开发新的联合疗法(即同时使用多种药物以实现更强效的效果)提供了一个有力的、经实验验证的先导。
这一结果也为一种新型的生物发现提供了蓝图。它表明,通过遵循规模法则并构建像C2S-Scale 27B这样更大的模型,可以创建足够强大的细胞行为预测模型,以运行高通量虚拟筛选、发现背景条件性生物学机制,并生成有生物学依据的假设。
某大学的研究团队目前正在探索此处揭示的机制,并在其他免疫背景下测试更多由AI生成的预测。经过进一步的临床前和临床验证,此类假设最终可能加速新疗法的问世。
开始使用 C2S-Scale 27B
新的C2S-Scale 27B模型及其资源现已向研究社区开放。邀请研究者探索这些工具,在此工作基础上继续前进,共同翻译生命的语言。
阅读bioRxiv上的完整科学预印本。
在Hugging Face上探索模型和资源。
在GitHub上访问代码。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。