多模态生物基础模型技术架构

原创

用户11764306

发布于 2026-05-02 11:26:26

1200

应用多模态生物基础模型于治疗与患者护理 | 人工智能

多模态生物基础模型

生物基础模型（BioFMs）是在大型生物数据集上预训练的人工智能模型。BioFMs 在特定的医疗和生命科学任务中展现出了先进能力。常用的 BioFMs 覆盖药物发现和临床开发领域，具体分布约为：蛋白质结构与分子设计（~20%）、组学数据分析（包括DNA、表观遗传学和RNA）（~30%）、医学影像（15%）以及临床文档（~35%）（Delile et al. 2025）。

单模态 BioFMs 仅在单一数据类型（例如氨基酸序列）上训练，用于相关下游应用（如预测蛋白质结构）；这一突破获得了2024年诺贝尔化学奖。多模态 BioFMs 则在多种数据类型（文本、音频、图像、视频，以下简称“模态”）上训练，并能在单个模型中同时跨不同数据流进行推理（例如，根据文本提示生成新图像或将图像匹配到描述）。

值得注意的多模态 BioFM 示例包括：

Latent Labs 的 Latent-X1 和 Latent-X2：不仅能预测蛋白质的3D结构，还能生成新型结合物（如抗体、大环肽、微型蛋白），并预测它们与靶点的相互作用。
Arc Institute 的 Evo 2：映射生物学的中心法则，以解释和预测 DNA、RNA 和蛋白质的结构与功能。
Insilco Medicine 的 Nach01：整合自然语言、化学智能和3D分子结构数据，加速药物发现。
Bioptimus 的 M-Optimus：解码组织学和临床数据以获取丰富的生物学洞察，支持从研究到患者护理的多个阶段。
哈佛大学与某机构的 MADRIGAL：整合结构、通路、细胞活力和转录组数据，预测药物组合的临床结果，识别不良相互作用，并优化多药治疗管理。
John Snow Lab 的视觉语言模型 Medical VLM-24B：处理临床记录、实验室报告和影像（X光、MRI、CT），实现统一的、具备上下文感知的诊断。
某机构的 3D 磁共振成像（MRI）基础模型：旨在使开发者能够构建用于图像检索、分类、图像分割和报告生成等任务的应用程序。

多模态优势

当前模型的前沿正在突破多模态理解和生成能力的边界。通用模型（如某机构 Nova 2 Omni）可以处理文本、图像、视频和语音输入，同时生成文本和图像。这种多模态趋势也延伸到了 BioFMs，结合多种数据类型（如医学图像和临床文档）可以在不同的临床结果上实现更高的预测准确性和更广泛的适用性（Siam et al. 2025）。

整合不同的生物数据类型可带来可衡量的性能提升：

增强的诊断准确性：整合基因组学、影像和临床数据的模型，在诊断（如阿尔茨海默病、脑癌）和表型分析方面，相较于单模态基线，曲线下面积（AUC）平均提升4-7%（Sun et al. 2024）。此外，在患者筛查期间整合实验室数据、患者运动指标和临床记录的模型，在心血管风险预测中达到92.74%的准确率和93.21的AUC（Guo and Wu, 2025）。
针对性的治疗策略：可以使用整合基因组图谱、医学图像和临床病史的模型，为个体患者指导选择有效的干预措施（Parvin et al. 2025）。这对癌症患者尤其有效，肿瘤基因组学和放射影像学可以辅助治疗决策，如化疗方案（Restrepo et al. 2023）。
新的疾病机制：单细胞多组学模型展示了癌细胞如何在血液疾病（如白血病）内部生长和抵抗治疗，通过发现隐藏的癌细胞、追踪突变如何驱动疾病进展以及为患者选择个性化治疗，帮助医生提高生存率（Kim and Takahashi, 2025）。
准确的风险预测：可以使用整合实验室结果、药物、临床记录、出院总结及其他临床数据的模型，以76%的准确率预测30天内再入院风险——每年为每家医院带来约340万美元的净节省，同时通过对高风险心力衰竭患者进行有针对性的干预，改善整体临床结果（Golas et al. 2018）。
预测性、预防性、个性化、参与性（P4）医学：结合可穿戴健康技术与患者健康数据的模型，可以以96-97%的准确率提取用于糖尿病和心脏病诊断的目标信号（Mansour et al. 2021）。

某机构客户中的 BioFMs 实际应用

这些性能提升解释了为什么领先的生物制药组织越来越多地采用多模态 BioFMs。领先的生物制药组织投资于 BioFMs，用于分析生物制品、基因组、病理学和临床数据。使用这些专门的AI模型，药物开发可节省高达50%的成本和时间，医学影像诊断可节省高达90%的时间（State of the Art-ificial Intelligence 2025, Jeong et al. 2025）。多模态 BioFMs 在医疗和生命科学价值链的多个阶段展现出潜力。

图1：多模态 BioFMs 整合各种生物数据类型（例如蛋白质、小分子、组学、影像、传感器、临床文档），为药物开发生命周期（研究、临床开发、生产、商业化）的应用提供动力。

用例1：针对“不可成药”疾病靶点设计治疗性蛋白质

多模态 BioFMs 整合计算预测、结构生物学和生物物理验证，为以前难以接近的蛋白质靶点提供新方法。早期应用可预测3D结构，但在具有不连续表位的多结构域靶点上存在困难。先进的药物发现现在整合了迭代的“设计-制造-测试-分析”（DMTA）循环，跨越结构、计算和生物物理数据。通过冷冻电镜捕获的3D蛋白质结构数据，与界面预测模板建模评分、界面预测对齐误差和均方根偏差等计算指标一起评估，然后针对剂量反应曲线、生物层干涉法和酶联免疫吸附试验等生物物理测量进行验证，以加速和降低药物发现的风险。例如，某机构的集成“AI-人类-湿实验室”循环通过结合用于从头蛋白质设计的生成式AI与“表位扩展”策略的快速实验验证，将该领域向前推进了一步，将设计到验证的时间线从数月压缩到数周。可以使用多模态 BioFMs（如 Latent Labs Latent-X2 和 Chai Discovery Chai-2），通过某机构的服务（包括某机构 Bio Discovery、某机构 SageMaker AI、某机构 EC2、某机构 S3、某机构 EFS 和某机构 VPC）开发下一代生物制剂。

图2：多模态 BioFMs 通过迭代的设计-验证循环，整合3D蛋白质结构、计算指标和生物物理测量，加速针对“不可成药”的多结构域疾病靶点的治疗性蛋白质发现。

用例2：在临床开发期间预测癌症患者的免疫治疗耐药性

多模态 BioFM 开发者致力于解决肿瘤学90%的临床试验失败率。当今的多模态 BioFMs 通过整合测序、单细胞数据、空间生物学和患者记录来模拟肿瘤微环境，发现导致患者因无效治疗而退出的耐药机制，并为以前无法治疗的患者亚群发现新的治疗靶点（图3）。例如，某机构的 Oncology Counterfactual Therapeutics Oracle (OCTO) 模拟了1,399个患者肿瘤中的873,000个虚拟免疫细胞，揭示了为什么携带 KRAS 和 STK11 基因突变的肺癌患者会产生阻碍免疫治疗效果的“免疫冷”环境。值得注意的是，该机构通过使用某机构 SageMaker HyperPod 在基于某机构云、配备 NVIDIA H100 GPU 的容错基础设施上，实现了40%更快的训练时间和两倍的处理速度。可以使用某机构 SageMaker HyperPod 进行跨GPU的分布式AI训练，使用某机构 EC2 提供计算能力，使用某机构 S3 存储数据，以及使用某机构 Athena 分析 PB 级的患者数据，采用类似的方法构建自己的多模态 BioFMs。

图3：多模态 BioFM 方法结合测序、空间转录组学、病理学和患者记录，模拟肿瘤微环境并对患者亚群进行优先级排序，可能减少早期试验的失败。

解决方案：某机构提供的多模态 BioFMs 环境

某机构为构建、训练和部署多模态 BioFMs 提供了一个统一环境，帮助将医疗和生命科学数据转化为可操作的洞察。该环境包含四个层面：用于模型开发的AI系统、用于生物数据管理的统一数据基础、用于计算和存储的可扩展基础设施，以及扩展药物开发生命周期能力的合作伙伴集成。

AI系统

某机构 Bio Discovery：为科学家提供直接访问AI代理的能力，这些代理选择正确的 BioFM、优化输入、评估候选对象、发送给实验室合作伙伴进行测试，并自动返回结果以在“实验室在环”循环中进行优化，从而积累机构知识。
某机构 SageMaker HyperPod：为大规模模型提供分布式训练基础设施。某机构 SageMaker AI 通过内置的可解释性工具、偏差检测和全面的审计跟踪对此进行补充，以支持从模型开发到生产部署所需的监管信心。
某机构 Nova Forge：使用某机构 Nova 模型系列作为起点，在最优点上进行训练，以最大化专有数据集的学习，同时最小化训练和持续预训练。
某机构 Bedrock AgentCore：包括用于托管长时间运行的深度研究代理的 Runtime 服务，以及用于安全连接代理到 BioFM 模型和其他领域特定工具的 Gateway 服务。

统一数据基础

某机构 HealthOmics：可以编排多步骤AI工作流，并在PB级规模上处理组学数据（DNA、RNA、蛋白质组学），作为支持多模态 BioFM 工作流的生物数据骨干。
某机构 HealthLake 和某机构 HealthImaging：将异构数据聚合到治理数据湖屋中，自动协调临床记录和医学影像（放射学、病理学）之间的数据。
某机构 Data Exchange 和某机构 Lake Formation：提供对来自不同来源（包括某公司数据集）的联邦数据的“搜索、选购、服务”访问——无需手动集成即可揭示癌症、罕见疾病和临床试验中的疾病机制。某机构 Clean Rooms 在保持数据主权的同时实现联邦学习。

可扩展基础设施

某机构 Simple Storage Service (S3)：为多模态数据集提供基础存储。
某机构 Athena：支持PB级分析。
某机构 Elastic Compute Cloud (EC2)：提供可扩展的计算能力，包括专门的GPU实例。
某机构 Elastic File System (EFS)：为协作工作流提供共享文件存储。
某机构 Virtual Private Cloud (VPC)：为敏感的医疗健康数据建立安全、隔离的网络基础设施。

某机构合作伙伴解决方案与实施支持

可以直接通过某机构部署来自合作伙伴（如某机构）的预构建多模态 BioFM。将这些生产就绪的合作伙伴 NIM 微服务与某机构符合 HIPAA 标准的影像服务、多模态推理能力和并行基因组学管道相结合，构建从发现到临床的端到端应用程序。示例合作伙伴多模态 BioFM 包括：

MONAI Multimodal：模型结合多种医疗数据（包括CT、MRI、X射线、超声、EHR、临床文档、DICOM标准、视频流和全切片影像），为研究人员和开发者实现多模态分析。
某机构 Cosmos：面向科学和医学的大型多模态模型。可用于手术机器人训练，通过生成结合3D解剖模型、基于物理的传感器数据和程序变化的合成数据集。
La-Proteina：同时使用蛋白质序列和原子级3D结构信息来设计大型、精确的蛋白质，因此可以合理地描述为多模态蛋白质模型（序列+结构）。

可以咨询实施合作伙伴（如某机构），以将多模态 BioFMs 用例从概念验证过渡到生产部署。这些合作伙伴在生物信息学、云架构和法规遵从方面带来专业知识，加速实现价值。

结论

多模态 BioFMs 正在重新构想我们在疾病、治疗和人类健康方面的发现能力。通过整合组学数据、医学影像和临床信息，这些模型揭示了以前通过传统方法难以检测的隐藏洞察。决策者现在可以在疾病诊断、治疗预测和治疗优化方面做出更准确、更自信的决策。

某机构提供了一个统一环境，用于克服大规模构建和部署多模态 BioFMs 的技术障碍。无需为每个治疗领域或临床应用投资零散的、单一用途的AI解决方案，可以利用可重用的基础模型，这些模型可以跨治疗和患者护理领域进行适配。该系统缩短了实现价值的时间，同时保留了随着多模态 BioFMs 在治疗和患者护理领域出现新数据源和用例而进行适应的灵活性。

多模态生物基础模型技术架构

多模态生物基础模型技术架构

多模态生物基础模型

多模态优势

某机构客户中的 BioFMs 实际应用

用例1：针对“不可成药”疾病靶点设计治疗性蛋白质

用例2：在临床开发期间预测癌症患者的免疫治疗耐药性

解决方案：某机构提供的多模态 BioFMs 环境

AI系统

统一数据基础

可扩展基础设施

某机构合作伙伴解决方案与实施支持

结论

延伸阅读

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐