Fig. 1: Multimodal analytical technologies and their applications.
- 图片说明
◉ 各种分析技术在单细胞分辨率和空间分布上提供了丰富多样的数据。◉ 分析方法的数据可以揭示中心法则中的多个步骤。◉ 内嵌文本列出了用于多组学分析的常见测序方法。◉ 有关当前可用方法的完整列表,我们建议读者参考最近的综述。◉ Pol II指聚合酶II;scRNA-seq指单细胞RNA测序;sgRNA指单导向RNA。◉ 重要潜在应用的机会可以重建细胞动态。◉ 箭头表示这些应用的底层机制是相互关联的,使用MFMs解决一个任务可以有助于其他任务。
基础模型的概念
Table 1 Comparison between traditional machine learning models and MFMs for molecular cell biology 表1 传统机器学习模型与分子细胞生物学中MFMs的比较
预期特性和架构
以数据为中心的工作流程,结合实验室闭环
Fig. 2: Diverse data context in pretraining and iterative improvement by lab-in-the-loop.
- 图片说明
◉ a,MFMs 在丰富的背景下的生物数据上进行训练。在预训练期间可以重现跨特定条件的多样化数据,从而丰富已知和未知条件下的生物知识表示。◉ 面板中的示例场景说明了在不同细胞状态中推广基因功能的理念,这有助于在应用中推断未见功能。◉ b,模型-数据-实验,形成一个主动学习循环。◉ 这种闭环实验室通过迭代反馈不断更新 MFM 的能力以及生成的生物学假设的质量。
表征组织异质性
预测基因功能与调控
计算机模拟扰动
用于训练 MFMs 的数据
期望的计算组件
用于多模态数据表示的统一标记化
Fig. 3: Computational components of multimodal foundation models.
- 图片说明
◉ a,MFMs 的期望组件。该模型由多模态输入数据组成,这些数据通过混合统一标记和多层次注意力操作进行处理。◉ 可以使用各种自监督和监督学习目标来对模型进行预训练和迁移学习。◉ b,模态内和模态间注意力机制的放大模型,显示了模型中使用的多头注意力的变体。◉ 放大的面板可视化了单个头上的模态间和模态内注意力操作。◉ 密集的方块表示相应查询(Q)和键(K)对之间的注意力,而虚线方块表示未对特定查询和键计算注意力。◉ 查询、键和值(V)是变压器模型中计算的实数向量。◉ Nx 表示连续堆叠的注意力块的数量为 N。
混合多层次注意力
带有提示的模态内和跨模态训练任务
Fig. 4: Potential training tasks and challenges.
- 图片说明
◉ a,MFMs预训练的训练任务示例,包括重建缺失的标记、纵向(时间)生成、跨模态和条件生成。这些任务都可以用统一的标记生成方式来描述,只需使用不同的模态指定元标记和任务提示。◉ b,构建用于分子细胞生物学的MFMs可能面临的挑战。
人类知识的整合
数据与计算资源
严格的评估方法
可解释性与幻觉风险
开放科学与伦理考量