应用多模态生物基础模型于治疗与患者护理 | 人工智能
生物基础模型(BioFMs)是在大型生物数据集上预训练的人工智能模型。BioFMs 在特定的医疗和生命科学任务中展现出了先进能力。常用的 BioFMs 覆盖药物发现和临床开发领域,具体分布约为:蛋白质结构与分子设计(~20%)、组学数据分析(包括DNA、表观遗传学和RNA)(~30%)、医学影像(15%)以及临床文档(~35%)(Delile et al. 2025)。
单模态 BioFMs 仅在单一数据类型(例如氨基酸序列)上训练,用于相关下游应用(如预测蛋白质结构);这一突破获得了2024年诺贝尔化学奖。多模态 BioFMs 则在多种数据类型(文本、音频、图像、视频,以下简称“模态”)上训练,并能在单个模型中同时跨不同数据流进行推理(例如,根据文本提示生成新图像或将图像匹配到描述)。
值得注意的多模态 BioFM 示例包括:
当前模型的前沿正在突破多模态理解和生成能力的边界。通用模型(如某机构 Nova 2 Omni)可以处理文本、图像、视频和语音输入,同时生成文本和图像。这种多模态趋势也延伸到了 BioFMs,结合多种数据类型(如医学图像和临床文档)可以在不同的临床结果上实现更高的预测准确性和更广泛的适用性(Siam et al. 2025)。
整合不同的生物数据类型可带来可衡量的性能提升:
这些性能提升解释了为什么领先的生物制药组织越来越多地采用多模态 BioFMs。领先的生物制药组织投资于 BioFMs,用于分析生物制品、基因组、病理学和临床数据。使用这些专门的AI模型,药物开发可节省高达50%的成本和时间,医学影像诊断可节省高达90%的时间(State of the Art-ificial Intelligence 2025, Jeong et al. 2025)。多模态 BioFMs 在医疗和生命科学价值链的多个阶段展现出潜力。
图1:多模态 BioFMs 整合各种生物数据类型(例如蛋白质、小分子、组学、影像、传感器、临床文档),为药物开发生命周期(研究、临床开发、生产、商业化)的应用提供动力。
多模态 BioFMs 整合计算预测、结构生物学和生物物理验证,为以前难以接近的蛋白质靶点提供新方法。早期应用可预测3D结构,但在具有不连续表位的多结构域靶点上存在困难。先进的药物发现现在整合了迭代的“设计-制造-测试-分析”(DMTA)循环,跨越结构、计算和生物物理数据。通过冷冻电镜捕获的3D蛋白质结构数据,与界面预测模板建模评分、界面预测对齐误差和均方根偏差等计算指标一起评估,然后针对剂量反应曲线、生物层干涉法和酶联免疫吸附试验等生物物理测量进行验证,以加速和降低药物发现的风险。例如,某机构的集成“AI-人类-湿实验室”循环通过结合用于从头蛋白质设计的生成式AI与“表位扩展”策略的快速实验验证,将该领域向前推进了一步,将设计到验证的时间线从数月压缩到数周。可以使用多模态 BioFMs(如 Latent Labs Latent-X2 和 Chai Discovery Chai-2),通过某机构的服务(包括某机构 Bio Discovery、某机构 SageMaker AI、某机构 EC2、某机构 S3、某机构 EFS 和某机构 VPC)开发下一代生物制剂。
图2:多模态 BioFMs 通过迭代的设计-验证循环,整合3D蛋白质结构、计算指标和生物物理测量,加速针对“不可成药”的多结构域疾病靶点的治疗性蛋白质发现。
多模态 BioFM 开发者致力于解决肿瘤学90%的临床试验失败率。当今的多模态 BioFMs 通过整合测序、单细胞数据、空间生物学和患者记录来模拟肿瘤微环境,发现导致患者因无效治疗而退出的耐药机制,并为以前无法治疗的患者亚群发现新的治疗靶点(图3)。例如,某机构的 Oncology Counterfactual Therapeutics Oracle (OCTO) 模拟了1,399个患者肿瘤中的873,000个虚拟免疫细胞,揭示了为什么携带 KRAS 和 STK11 基因突变的肺癌患者会产生阻碍免疫治疗效果的“免疫冷”环境。值得注意的是,该机构通过使用某机构 SageMaker HyperPod 在基于某机构云、配备 NVIDIA H100 GPU 的容错基础设施上,实现了40%更快的训练时间和两倍的处理速度。可以使用某机构 SageMaker HyperPod 进行跨GPU的分布式AI训练,使用某机构 EC2 提供计算能力,使用某机构 S3 存储数据,以及使用某机构 Athena 分析 PB 级的患者数据,采用类似的方法构建自己的多模态 BioFMs。
图3:多模态 BioFM 方法结合测序、空间转录组学、病理学和患者记录,模拟肿瘤微环境并对患者亚群进行优先级排序,可能减少早期试验的失败。
某机构为构建、训练和部署多模态 BioFMs 提供了一个统一环境,帮助将医疗和生命科学数据转化为可操作的洞察。该环境包含四个层面:用于模型开发的AI系统、用于生物数据管理的统一数据基础、用于计算和存储的可扩展基础设施,以及扩展药物开发生命周期能力的合作伙伴集成。
可以直接通过某机构部署来自合作伙伴(如某机构)的预构建多模态 BioFM。将这些生产就绪的合作伙伴 NIM 微服务与某机构符合 HIPAA 标准的影像服务、多模态推理能力和并行基因组学管道相结合,构建从发现到临床的端到端应用程序。示例合作伙伴多模态 BioFM 包括:
可以咨询实施合作伙伴(如某机构),以将多模态 BioFMs 用例从概念验证过渡到生产部署。这些合作伙伴在生物信息学、云架构和法规遵从方面带来专业知识,加速实现价值。
多模态 BioFMs 正在重新构想我们在疾病、治疗和人类健康方面的发现能力。通过整合组学数据、医学影像和临床信息,这些模型揭示了以前通过传统方法难以检测的隐藏洞察。决策者现在可以在疾病诊断、治疗预测和治疗优化方面做出更准确、更自信的决策。
某机构提供了一个统一环境,用于克服大规模构建和部署多模态 BioFMs 的技术障碍。无需为每个治疗领域或临床应用投资零散的、单一用途的AI解决方案,可以利用可重用的基础模型,这些模型可以跨治疗和患者护理领域进行适配。该系统缩短了实现价值的时间,同时保留了随着多模态 BioFMs 在治疗和患者护理领域出现新数据源和用例而进行适应的灵活性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。