前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nat. Mach.Intell. | 数据驱动的联邦学习:知识蒸馏助力药物发现新突破

Nat. Mach.Intell. | 数据驱动的联邦学习:知识蒸馏助力药物发现新突破

作者头像
DrugAI
发布2025-03-06 21:44:54
发布2025-03-06 21:44:54
120
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

人工智能在科学研究中的一大挑战是如何确保获取足够的高质量数据,以构建具有影响力的模型。尽管公共数据资源丰富,但最有价值的知识往往深藏于企业的机密数据孤岛之中。尽管各行业日益开放共享非竞争性信息,这种合作仍受到数据机密性的限制。联邦学习(Federated Learning, FL)使得知识共享成为可能,同时保护数据隐私,但仍存在显著局限性。

在此,作者提出了一种基于数据的联邦蒸馏方法 FLuID(Federated Learning using Information Distillation),专为药物发现领域设计,旨在在确保数据隐私的同时实现高效知识共享。作者通过两个实验验证了 FLuID 的有效性:第一个实验使用公共数据模拟了一个虚拟联盟,第二个实验则在八家制药公司之间开展了真实的研究合作。尽管使模型与各合作方的特定领域保持一致仍然面临挑战,但 FLuID 以数据为驱动,提供了多种缓解领域偏移(domain shift)的方法。FLuID 促进了制药企业间的知识共享,为新一代生物活性预测模型的开发铺平了道路,使其在性能提升的同时具备更广泛的适用性。

人工智能(AI)在科学研究中的核心优势在于其从实验数据中挖掘因果模式、提取知识并构建强大的预测模型。例如,AI 通过分析大量肺部医学影像,能够识别图像特征与癌症诊断之间的因果关系,甚至在异常检测方面超越人类专家,从而促进疾病的早期治疗。AI 的强大能力使科学家能够更高效地利用数据解决复杂问题。

然而,AI 模型的学习通常需要大量高质量数据,其可用性取决于领域的特性,并直接影响 AI 的实际价值。获取足够的数据尤其困难,特别是在知识产权和数据治理要求严格的领域。数据的私密性成为 AI 发展的主要瓶颈,导致大量知识被锁定在私有数据孤岛中,无法共享。若能解锁这些私有数据中的知识,将极大提升 AI 的影响力,并推动新一代预测模型的发展,提高模型的性能与适用性。

联邦学习(Federated Learning, FL)作为应对数据隐私问题的解决方案,近年来受到广泛关注。然而,现有 FL 主要基于模型驱动(MD-FL)方式,即在多个分布式站点上训练局部模型,并通过参数更新来训练中心模型。这种方法虽然具备隐私保护能力,但仍存在诸多挑战,包括数据治理风险、复杂的通信协议、大量计算资源消耗,以及模型结构的刚性限制。此外,不同组织之间的数据通常是异构的,并非独立同分布,单一的共享模型难以适应所有数据条件。因此,仅依赖模型驱动的 FL 难以充分解决隐私和数据异质性问题。

模型驱动的联邦学习(MD-FL)

MD-FL 由 Google 于 2016 年提出,目前被广泛应用于金融、医疗和药物发现等领域。其核心思想是在多个分布式数据源上进行本地训练,并通过安全通信协议将模型参数更新至中心模型。该方法分散计算资源,减少对数据共享的依赖,同时通过差分隐私等技术增强数据保护。然而,MD-FL 仍面临以下挑战:

  • 隐私风险:共享模型可能泄露部分敏感信息。
  • 架构限制:中央模型必须在训练前确定架构,难以后续优化或调整。
  • 通信开销:参数更新涉及大量数据传输,增加计算成本。
  • 数据适应性差:中心模型难以适配所有数据分布,影响泛化能力。

为减少通信开销,知识蒸馏(Knowledge Distillation, KD)技术被引入 MD-FL,允许本地训练复杂模型(教师模型),再将知识提取并传输至较小的共享模型(学生模型)。尽管 KD 降低了通信负担并增强了隐私保护,但由于模型架构固定,仍然难以适应多变的应用场景。

数据驱动的联邦学习(DD-FL)

针对 MD-FL 的局限性,作者提出了 数据驱动的联邦学习(Data-Driven Federated Learning, DD-FL),并基于此开发了 FLuID(Federated Learning using Information Distillation)。与 MD-FL 不同,DD-FL 不共享模型参数,而是共享非敏感的标注数据。在 DD-FL 中,知识不是通过参数更新传输,而是通过预测标签存储于一个公共数据集。DD-FL 结合了半监督学习、集成预测和知识蒸馏技术,具备以下优势:

  • 隐私保护:不直接暴露原始数据,仅共享标注数据。
  • 架构灵活:知识以数据形式存储,不受限于特定模型架构。
  • 异构支持:允许不同参与方使用各自优化的算法,无需统一模型。
  • 增量学习:支持动态扩展,未来可持续累积更多数据,提高模型适用性。

FLuID 方法

FLuID 通过知识蒸馏与联邦学习结合,专为药物发现和毒性预测而设计。该方法分为三步:

  1. 知识提取:各参与方使用本地数据训练私有教师模型,并用该模型为公共数据集生成预测标签。
  2. 知识整合:将所有教师模型的预测结果合并,形成一个统一的联邦数据集。
  3. 知识融合:使用联邦数据训练学生模型,并可进一步与私有数据结合,优化性能。

FLuID 在真实制药行业的合作实验中得到了验证,成功从多个企业的数据中提取并融合 hERG 活性知识。实验结果表明,FLuID 训练出的模型不仅性能优于单个教师模型,还具备更广泛的适用性。

隐私保护与挑战

FLuID 采用的知识蒸馏策略确保:

  • 仅共享公共数据的预测标签,不暴露原始数据。
  • 通过教师-学生模型结构避免直接访问私有数据。
  • 采用数据聚合机制,防止逆向推测私有数据来源。

尽管 FLuID 提供了隐私保护和数据共享的解决方案,但仍然面临一些挑战:

  • 标签噪声:教师模型的预测可能存在误差,可通过多教师集成来减弱影响。
  • 标签偏差:不同组织的数据可能存在不均衡,可通过多轮数据融合优化。
  • 领域偏移:不同企业的数据分布不同,可通过领域自适应技术进行调整。
  • 数据一致性:各方数据来源和处理方式不同,需要统一数据标注和质量控制标准。

结论

本研究提出了 FLuID,一种保护隐私的知识共享方法,可解锁当前封闭在私有数据孤岛中的重要信息,并应用于药物发现领域。作者验证了 FLuID 在多个组织间实现知识提取、传输和联邦整合的能力,同时确保数据隐私不被泄露。通过在公共数据和制药行业的真实数据场景中进行验证实验,作者证明了 FLuID 的有效性。在 hERG 结合分类任务中,该联邦学习方法显著提升了模型性能和适用性范围(AD),并且随着联盟规模的扩大,模型性能进一步提升。知识贡献在所有参与方之间均匀分布,使所有合作方都能受益于共享知识和原始私有数据中的 AD。

尽管实验结果令人鼓舞,但在实际应用中,每个合作方通常专注于自身的特定领域,其数据分布往往比公共基准数据更加复杂。因此,制药公司的化学空间通常较为集中,与公共测试数据存在一定差异。这也解释了为何单独训练的私有教师模型性能较弱,而 FLuID 训练的联邦学生模型和混合模型表现更优,因为后者受益于更加多样化的联邦数据。然而,在实际应用中,模型既需要在全球化学空间中表现良好,以支持新项目,也需要适应各个合作方的本地领域,以满足现有项目需求。在这种情况下,只有一部分联邦数据中的知识对某个具体合作方是有价值的,其余数据可能会对本地模型造成噪声。因此,该方法需要确保联邦知识与特定项目的目标领域保持一致。领域偏移(domain shift)问题是所有机器学习任务面临的挑战之一,并非 FLuID 所独有。但由于 FLuID 采用数据驱动策略,且联邦数据集规模庞大,可以利用多种机器学习技术(如迁移学习、模型微调、自适应数据采样等)来优化领域适应性,从而减少领域偏移对模型性能的影响。这一方向的研究超出了本研究的范围,将在未来进一步探讨。

FLuID 是一种数据驱动的联邦学习方法,与当前更为流行的模型驱动 FL 相比,具有显著优势。通过知识蒸馏(KD)和联邦蒸馏(FD)技术,FLuID 在药物发现领域实现了高效的知识共享。利用代理数据、KD 和标签聚合技术,FLuID 确保数据标签匿名化,无法溯源至原始训练数据,从而规避了数据保护和治理的限制。此外,FLuID 不依赖特定算法,支持各参与方采用不同的知识提取方法,并能将所获得的知识用于多种机器学习和人工智能(AI)工作流。其数据驱动的知识存储格式持久有效,能够适应未来 AI 技术的发展。FLuID 以直观、简单的方式确保隐私保护,同时实现高效的知识传输,使企业能够利用此前被私有数据孤岛所封锁的大量知识。通过结合私有数据、公共数据和联邦数据,FLuID 有望推动新一代生物活性预测模型的构建,使其在性能和适用性范围上达到前所未有的高度。

整理 | WJM

参考资料

Hanser, T., Ahlberg, E., Amberg, A. et al. Data-driven federated learning in drug discovery with knowledge distillation. Nat Mach Intell (2025).

https://doi.org/10.1038/s42256-025-00991-2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档