首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat Rev Drug Discov | 算法已经够多了,缺的是数据,天然产物亦是如此

Nat Rev Drug Discov | 算法已经够多了,缺的是数据,天然产物亦是如此

作者头像
MindDance
发布2026-06-24 15:16:10
发布2026-06-24 15:16:10
740
举报

2023 年 11 月,60 多位横跨天然产物化学与计算药物设计两大领域的科学家,在 Nature Reviews Drug Discovery 上联名发表了一篇综述:Artificial intelligence for natural product drug discovery。它一边兴奋地展示 AI 给这个古老领域带来的种种可能,一边又异常清醒地指出:真正卡住脖子的,从来不是算法,而是数据。本文试图完整读懂这篇文章的逻辑、亮点与野心。

01 一个被冷落、又被重新发现的化学宝库

细菌、真菌、植物和动物在漫长进化中合成了数十万种结构各异的特化代谢物,也就是我们常说的天然产物:多肽、聚酮、糖类、萜类、生物碱……它们是生物在特定环境中生存的工具,扮演着信号分子、武器、营养掠夺剂和抗逆保护剂等角色,在生物之间错综复杂的竞争与协作中居于核心位置。

对人类而言,天然产物的价值无需赘述:抗生素、化疗药、免疫抑制剂、农作物保护剂,背后大量都是天然产物或其衍生物。与那些往往偏平面的合成分子相比,天然产物通常具有更高的三维立体复杂度,这让它们更有可能去调控那些棘手的药物靶点;同时,它们本就是天然代谢物,更容易成为体内转运系统的底物,从而把药物带到靶点。

然而大约在 1990 到 2010 年间,组合化学和高通量筛选的兴起,让制药行业一度冷落了天然产物研究。转机来自组学数据的大爆发——它让我们得以更深地窥探生物圈这座隐藏的化学宝库。这里有一个关键事实:在细菌和真菌(以及部分植物和动物)中,绝大多数特化代谢物的生物合成通路,其基因在基因组上是成簇排列的。目前已有超过 2500 个这样的生物合成基因簇(biosynthetic gene cluster,简称 BGC)及其产物得到实验表征。基因物理上的成簇,意味着我们有可能通过计算分析,从基因组里一次性识别出数以百万计的潜在新分子合成通路——这正是药物发现的起点。

但问题也随之而来:我们能预测出的生物合成多样性实在太庞大了,迫切需要更有效的方法去筛选和排序,才能找出真正有成药潜力的那几个。

02 两条平行线终于交汇

作者将此前几乎不相往来的两个领域摆在一起。

一边是基于组学的天然产物发现:AI 正被用来仅凭 DNA 序列,就去预测 BGC 产物的(部分)化学结构,靠的是不断标准化、不断入库的已知生物合成通路数据。

另一边是计算药物设计:这里传统上有两条路径。一条是统计建模,专注在化学结构与生物活性之间找相关性,也就是定量构效关系(QSAR);另一条是基于结构的研究,把三维结构塞进蛋白靶点里(分子对接),再用分子动力学研究它们在纳秒到毫秒尺度上的行为。

作者敏锐地指出:这两个领域之间存在巨大的交叉施肥(cross-fertilization)空间。一边能源源不断产出大量候选分子和通路,另一边则握有预测靶点、活性和构效关系的工具。如果把它们接上,AI 完全可能让两个领域同时加速、彼此收敛。

人工智能在天然产物与药物发现中的应用全景。传统分析往往只用到基因组、转录组、蛋白质组、代谢组、结构和活性等各类数据的很小一部分;而 AI 能够整合不同类型的数据、学习复杂的特征关系并提出有意义的假设。图中将方法分为三类:非机器学习方法(如相关与回归)、传统机器学习方法(如自组织映射、聚类)和深度学习(如卷积神经网络、计算机视觉、自然语言处理)
人工智能在天然产物与药物发现中的应用全景。传统分析往往只用到基因组、转录组、蛋白质组、代谢组、结构和活性等各类数据的很小一部分;而 AI 能够整合不同类型的数据、学习复杂的特征关系并提出有意义的假设。图中将方法分为三类:非机器学习方法(如相关与回归)、传统机器学习方法(如自组织映射、聚类)和深度学习(如卷积神经网络、计算机视觉、自然语言处理)

人工智能在天然产物与药物发现中的应用全景。传统分析往往只用到基因组、转录组、蛋白质组、代谢组、结构和活性等各类数据的很小一部分;而 AI 能够整合不同类型的数据、学习复杂的特征关系并提出有意义的假设。图中将方法分为三类:非机器学习方法(如相关与回归)、传统机器学习方法(如自组织映射、聚类)和深度学习(如卷积神经网络、计算机视觉、自然语言处理)

值得一提的是,这篇综述本身就是这种交叉的产物——它脱胎于莱顿大学 Lorentz 中心举办的一场跨界工作坊。作者在引言里直白地写道:到目前为止,这两个领域的研究者之间几乎没有互动。这句话,是理解整篇文章动机的钥匙,后面我们还会回到它。

03 AI 已经做到了什么

从基因到分子:基因组与代谢组挖掘

识别 BGC,目前仍主要依赖 antiSMASH、PRISM 这类基于规则的方法。它们擅长检出已知类别的 BGC,但面对全新类型或非成簇通路就力不从心了。这时机器学习展现出明显优势:基于隐马尔可夫模型的 ClusterFinder,深度学习方法 DeepBGC、GECCO、SanntiS,以及多个针对 RiPP(核糖体合成与翻译后修饰肽)的挖掘算法,都能识别出规则方法漏掉的 BGC。

这些方法已经结出了实实在在的果实:decRiPPter 算法发现了属于全新羊毛硫肽类别的 pristinin;DeepRiPP 则凭借深度学习的前体肽识别模块,发现了 deepflavo 和 deepginsen——它们的前体肽编码位置离相关生物合成酶很远,传统方法根本串不起来。

如果说基因组挖掘只能暗示生物合成的潜力,那么代谢组学就能直接检测到被合成出来的分子,哪怕它们的精确结构还不清楚。不过,从质谱(MS)数据反推分子结构和子结构,远非易事。于是 AI 被用来攻克质谱代谢组挖掘的各种难题:谱图匹配、分子式标注、分子类别标注、保留时间预测。核磁共振(NMR)这边也在经历类似的变革——深度学习正在改进谱图重构、去噪、峰识别和信号解卷积。

作者还指出了一个更宏大的方向:把基因组挖掘出的 BGC,与代谢组测到的谱图、预测出的分子类别连接起来,去填补基因组学和代谢组学之间那道巨大的注释鸿沟。

把结构看清楚

成功的天然产物药物发现,前提是能准确无误地解析分离化合物的结构。而这恰恰因为天然代谢物的化学复杂性而困难重重,往往需要综合 NMR、红外、紫外、电子圆二色、X 射线、高分辨质谱、串联质谱等多种数据。

有意思的是,AI 在这件事上其实资历很老——早在 1960 年代,它就被用来辅助从质谱数据中鉴定未知化合物。如今它能从质谱预测分子式、匹配数据库、直接从串联质谱以 SMILES 字符串的形式从头解析结构。在 NMR 方向,计算机辅助结构解析(CASE)程序能给出所有可能结构的概率排序;基于卷积神经网络的 SMART 2.0 指导发现并解析了一类新颖天然产物,包括新大环内酯 symplocolide A;DP4-AI 则把量子化学的 NMR 位移计算与贝叶斯方法结合起来,给候选结构赋予正确性概率。

用人工智能方法发现的代表性化合物。合成化合物 halicin 及相关分子,由一个训练用于从化学结构预测抗生素活性的深度神经网络发现;rivulariapeptolide 与 symplocolide A 的结构,是用卷积神经网络从复杂微生物提取物中预测出来的;pristinin A3 由一个挖掘泛基因组、在某属附属基因组的类操纵子结构中优先筛选新型 RiPP 前体的支持向量机发现;deepflavo 和 deepginsen 则部分借助自然语言处理,从基因组预测其 RiPP 前体及切割模式而被发现。
用人工智能方法发现的代表性化合物。合成化合物 halicin 及相关分子,由一个训练用于从化学结构预测抗生素活性的深度神经网络发现;rivulariapeptolide 与 symplocolide A 的结构,是用卷积神经网络从复杂微生物提取物中预测出来的;pristinin A3 由一个挖掘泛基因组、在某属附属基因组的类操纵子结构中优先筛选新型 RiPP 前体的支持向量机发现;deepflavo 和 deepginsen 则部分借助自然语言处理,从基因组预测其 RiPP 前体及切割模式而被发现。

用人工智能方法发现的代表性化合物。合成化合物 halicin 及相关分子,由一个训练用于从化学结构预测抗生素活性的深度神经网络发现;rivulariapeptolide 与 symplocolide A 的结构,是用卷积神经网络从复杂微生物提取物中预测出来的;pristinin A3 由一个挖掘泛基因组、在某属附属基因组的类操纵子结构中优先筛选新型 RiPP 前体的支持向量机发现;deepflavo 和 deepginsen 则部分借助自然语言处理,从基因组预测其 RiPP 前体及切割模式而被发现。

图中的 halicin 其实是合成化合物,并非天然产物。作者把它放进来,是因为预测抗菌活性的这套深度学习方法论,完全可以迁移到天然产物上。

它到底有什么用:靶点与活性预测

在所有应用中,作者认为最重要的,是预测天然产物的大分子靶点、生物活性以及潜在毒性。原因很现实:基因组挖掘动辄给出长得吓人的候选 BGC 清单,却几乎没有办法把精力聚焦到那些真正有成药潜力的部分。预测活性和靶点,正是给这份清单排序的关键。

新分子要成为候选药物,最大的拦路虎之一就是不知道它的靶点是什么,这让临床前测试和理性优化无从下手。而大规模实验测定作用机制,成本和工作量都不现实。于是能快速从分子结构预测靶点的计算模型,成了活跃的研究方向。几乎所有计算药物发现方法——对接、聚类、活性指纹、药效团、机器学习——都已被成功用于天然产物靶点解析,有些甚至为已经进入临床试验的天然产物揭示了新的作用机制。

从基因组、代谢组和表型数据预测生物活性与大分子靶点。组学数据可被挖掘,识别天然产物生物合成通路中的遗传特征,如抗性基因、转运蛋白以及与初级代谢的关联,这些都能预示产物的生物活性或大分子靶点;代谢组学与 NMR(配合对生物合成基因的分析)可用于识别预示特定活性或靶点的化学特征;大规模、标准化的表型生物检测同样关键。BGC 指生物合成基因簇。
从基因组、代谢组和表型数据预测生物活性与大分子靶点。组学数据可被挖掘,识别天然产物生物合成通路中的遗传特征,如抗性基因、转运蛋白以及与初级代谢的关联,这些都能预示产物的生物活性或大分子靶点;代谢组学与 NMR(配合对生物合成基因的分析)可用于识别预示特定活性或靶点的化学特征;大规模、标准化的表型生物检测同样关键。BGC 指生物合成基因簇。

从基因组、代谢组和表型数据预测生物活性与大分子靶点。组学数据可被挖掘,识别天然产物生物合成通路中的遗传特征,如抗性基因、转运蛋白以及与初级代谢的关联,这些都能预示产物的生物活性或大分子靶点;代谢组学与 NMR(配合对生物合成基因的分析)可用于识别预示特定活性或靶点的化学特征;大规模、标准化的表型生物检测同样关键。BGC 指生物合成基因簇。

这里还有几个特别巧妙的思路值得展开。

其一是序列或 BGC 层面的活性预测。一种做法是直接预测 BGC 的终产物再推断活性(如 PRISM),但它有个软肋——对结构预测不准的 BGC,终产物上一点小错误就可能让活性预测南辕北辙。作者建议改用更稳健的子结构特征(比如 β-内酰胺环或特定氨基酸),对更广泛的 BGC 也许更准。

其二是借鉴自然语言处理。word2vec 这类原本用于给文档里的词做语境感知嵌入的方法,被改造成 pfam2vec 来嵌入 BGC 里的蛋白结构域,DeepBGC 正是用它来预测活性的。

其三,也是最优雅的——利用自抗性、调控和进化特征。细菌产生抗生素的同时,必须携带抗性基因来保护自己不被自己毒死。把这些抗性基因和 BGC 关联起来,就能反推产物的活性。更进一步,控制 BGC 的转录因子网络和它们响应的环境信号,能告诉我们这些天然产物在什么情况下、为了什么目的被生产出来——这或许能用来预测共生菌在病原入侵时会表达哪些基因簇,从而为抗生素发现排序。作者坦言,调控网络至今在基因组挖掘中基本被忽视,但它很可能是理解功能的关键。

04 工具箱里的新家伙,和一份冷静的使用说明

分子怎么喂给机器:特征化

复杂的分子数据必须被转换成机器可读的形式,这个过程叫特征化(featurization)。把分子结构转成一串比特或计数,是最常见的做法,RDKit、CDK 这类软件包里都有现成的实现。

化学特征化技术。可用的特征化技术种类繁多,从简单的理化性质,经由常用的环状指纹,到先进的三维和基于神经网络的编码器。选择合适的特征化方法至关重要,因为对机器学习模型的解读,正是基于它所训练的特征。尽管可行,但组合使用多种特征化技术并不常见。
化学特征化技术。可用的特征化技术种类繁多,从简单的理化性质,经由常用的环状指纹,到先进的三维和基于神经网络的编码器。选择合适的特征化方法至关重要,因为对机器学习模型的解读,正是基于它所训练的特征。尽管可行,但组合使用多种特征化技术并不常见。

化学特征化技术。可用的特征化技术种类繁多,从简单的理化性质,经由常用的环状指纹,到先进的三维和基于神经网络的编码器。选择合适的特征化方法至关重要,因为对机器学习模型的解读,正是基于它所训练的特征。尽管可行,但组合使用多种特征化技术并不常见。

作者特别提醒:简化是特征化与生俱来的代价。极端情况下,两个不同分子可能被同一个指纹表示。所以要根据用途谨慎选择特征化方法。这里也藏着一个对天然产物尤其重要的发现——环状指纹在识别结构相关的天然产物上最准,但在从天然产物向合成模拟物做骨架跃迁(scaffold hopping)时,反而不如基于药效团的描述符好用。

深度学习的诱惑与陷阱

深度学习近年风头无两,它能捕捉非线性关系、接受非表格化输入,把 AI 的适用范围拓展到了非欧几里得空间。最著名的例子莫过于 AlphaFold:它从蛋白质的一级氨基酸序列就能预测三维结构。作者认为,AlphaFold 立下的标杆暗示着深度学习有潜力解决天然产物计算研究中那些长期悬而未决的问题——只不过,天然产物的数据要稀疏得多。

正是在这里,这篇综述展现了它最可贵的品质:清醒。作者明确指出,天然产物的深度学习还处于婴儿期,对它的预测必须保持审慎,并郑重提出一套最佳实践:

  • 把新的深度学习模型和更简单的模型比较,权衡可解释性与预测效果;
  • 通过定义适用域、给预测加上置信度估计,把模型擅长的范围说清楚;
  • 用交叉验证和真正的留出集来评估,避免随机划分,优先采用化学聚类或时间划分。作者点破了一个业内常见的陷阱——由于人们习惯把合成类似物连同构效关系一起发表,随机划分会高估模型的泛化能力;
  • 理解模型学到了什么,尽量把算法学到的东西映射回输入特征,给一线实验科学家提供可解释的可视化。
评估机器学习模型的标准做法。垃圾进,垃圾出。本框聚焦两个关键点:数据平衡,以及在独立测试集上的模型评估。它详细讨论了数据不平衡(如某类标签或某类特征被过度代表)会如何制造出看似准确、实则毫无预测力的模型——例如一个 10000 正例对 100 负例的数据集,模型只要永远预测有相互作用就能对 99%;并给出了在数据选择、训练采样加权、训练后分类评估三个阶段的应对策略,以及关于交叉验证与独立测试集的规范。
评估机器学习模型的标准做法。垃圾进,垃圾出。本框聚焦两个关键点:数据平衡,以及在独立测试集上的模型评估。它详细讨论了数据不平衡(如某类标签或某类特征被过度代表)会如何制造出看似准确、实则毫无预测力的模型——例如一个 10000 正例对 100 负例的数据集,模型只要永远预测有相互作用就能对 99%;并给出了在数据选择、训练采样加权、训练后分类评估三个阶段的应对策略,以及关于交叉验证与独立测试集的规范。

评估机器学习模型的标准做法。垃圾进,垃圾出。本框聚焦两个关键点:数据平衡,以及在独立测试集上的模型评估。它详细讨论了数据不平衡(如某类标签或某类特征被过度代表)会如何制造出看似准确、实则毫无预测力的模型——例如一个 10000 正例对 100 负例的数据集,模型只要永远预测有相互作用就能对 99%;并给出了在数据选择、训练采样加权、训练后分类评估三个阶段的应对策略,以及关于交叉验证与独立测试集的规范。

数据不够,怎么办

既然天然产物数据稀疏是常态,作者系统梳理了一整套应对低数据的策略,这部分实操性很强:

用大规模化学数据集上预训练好的模型权重(如 ChemBERTa、MoleculeNet),减少从头训练的算力,往往还能拿到更高的精度;用半监督学习把有标签和无标签数据结合起来;用迁移学习,把在大数据集上学到的知识搬到数据稀少的相关任务上;用主动学习,让模型主动挑选最该去做实验标注的样本——作者也诚实地承认,主动学习在天然产物领域还没铺开,因为这里的实验往往太复杂、太昂贵;还有强化学习,用预设的奖励函数把模型输出引导到化学空间中我们想去的区域,在从头设计和逆合成预测上已显身手。

关于化学空间,综述还专门用了一个专栏来讲它有多大、又该如何导航,这对理解天然产物为何特殊很有帮助:仅仅是符合 Lipinski 五规则的类药化学空间,就被估计有约 10 的 60 次方个化合物,而用于计算筛选的最大化学库通常也只有约 10 的 10 次方个。更关键的是,Lipinski 规则的原始研究本身就把天然产物列为常见的例外——天然产物通常体积更大、三维复杂度更高,而筛选库里多是符合规则、质量小于 500 Da 的平面合成小分子。借助 PCA、t-SNE、UMAP、TMAP 等降维方法,人们已经能把 ChEMBL 数据库里 113 万个化合物连同其生物检测数据,在 10 分钟内可视化成一棵树。

05 真正的拦路虎:数据

读到这里你会发现,这篇综述的真正重心,其实在后半部分。作者反复强调:高质量训练数据集,才是 AI 算法成功的命门。而天然产物在这件事上,处境相当糟糕。

散乱的数据库版图

天然产物数据库的版图庞大而多样,但也高度碎片化,真正全面、精心维护的资源寥寥无几。更尴尬的是,天然产物数据在 PubChem、ChEMBL、Reaxys、Scifinder 这些通用大库里常常被低估,甚至根本没被标注为天然产物——截至 2023 年 1 月,根据 Wikidata,只有 8951 个天然产物拥有 ChEMBL 标识符。此外,数据来源、获取和变更的记录(即数据溯源)在多数天然产物数据库里维护得很差;很少有数据库收录天然产物提取物和馏分的生物检测数据;还有些库不提供完整下载,或不允许学术界自由使用。

天然产物数据相关的数据库一览。表中按化学专属资源、BGC 资源、谱图资源、对天然产物友好的有用资源等类别,列出了 LOTUS、COCONUT、Natural Products Atlas、MIBiG、antiSMASH database、GNPS、MassBank、NP-MRD、ChEMBL、Wikidata 等数据库,并就是否有化学标识符、化学结构、API、完整数据下载、版本控制、用户提交系统、许可协议等维度逐一比较。
天然产物数据相关的数据库一览。表中按化学专属资源、BGC 资源、谱图资源、对天然产物友好的有用资源等类别,列出了 LOTUS、COCONUT、Natural Products Atlas、MIBiG、antiSMASH database、GNPS、MassBank、NP-MRD、ChEMBL、Wikidata 等数据库,并就是否有化学标识符、化学结构、API、完整数据下载、版本控制、用户提交系统、许可协议等维度逐一比较。

天然产物数据相关的数据库一览。表中按化学专属资源、BGC 资源、谱图资源、对天然产物友好的有用资源等类别,列出了 LOTUS、COCONUT、Natural Products Atlas、MIBiG、antiSMASH database、GNPS、MassBank、NP-MRD、ChEMBL、Wikidata 等数据库,并就是否有化学标识符、化学结构、API、完整数据下载、版本控制、用户提交系统、许可协议等维度逐一比较。

标准化、注释与整合:四道必答题

作者把数据问题拆成了一连串相互关联的子问题,逻辑非常清晰。

数据传播。科学论文至今仍是天然产物信息传播的主渠道,但论文里的数据往往不是机器可读格式,自动提取几乎不可能。于是数据库开发者只能手动整理,还要面对图像转结构、同名异构、一物多名等一堆麻烦。结构识别工具 DECIMER 正在改善图像转结构这一环。作者提出了一个颇具建设性的方案:鼓励作者为论文里每个化合物附上一个标准化的机器可读文件,就像每个 X 射线结构都必须配一个 cif 文件那样。

数据沉积。MIBiG、NP Atlas、GNPS、NP-MRD、Norine 等较大的库都提供了用户沉积数据的机制,但没有清晰的激励,沉积率就上不去。作者用了一个很传神的词——沉积疲劳(deposition fatigue):繁琐的手动录入,再加上天然产物数据类型五花八门(来源生物、MS、NMR、BGC、SMILES),让作者望而却步。

天然产物数据的沉积与共享——基础设施与激励。关于天然产物结构、生物活性和生物合成通路的各类数据,可以被沉积进专门的社区数据库,供重复利用,也为 AI 算法提供训练数据。由于标准化的数据沉积对 AI 驱动的天然产物药物发现的未来至关重要,给科学界提供清晰的激励和回报就显得格外重要,包括合作机会、与数据库联动的在线比较分析能力、社区驱动的注释与知识积累,以及通过后续工作和由此带来的引用来提升影响力。
天然产物数据的沉积与共享——基础设施与激励。关于天然产物结构、生物活性和生物合成通路的各类数据,可以被沉积进专门的社区数据库,供重复利用,也为 AI 算法提供训练数据。由于标准化的数据沉积对 AI 驱动的天然产物药物发现的未来至关重要,给科学界提供清晰的激励和回报就显得格外重要,包括合作机会、与数据库联动的在线比较分析能力、社区驱动的注释与知识积累,以及通过后续工作和由此带来的引用来提升影响力。

天然产物数据的沉积与共享——基础设施与激励。关于天然产物结构、生物活性和生物合成通路的各类数据,可以被沉积进专门的社区数据库,供重复利用,也为 AI 算法提供训练数据。由于标准化的数据沉积对 AI 驱动的天然产物药物发现的未来至关重要,给科学界提供清晰的激励和回报就显得格外重要,包括合作机会、与数据库联动的在线比较分析能力、社区驱动的注释与知识积累,以及通过后续工作和由此带来的引用来提升影响力。

如何破解沉积疲劳?作者给出两条路:一是增值——靠署名、引用、合作和便捷的自动再分析来吸引人;二是要求——干脆由期刊或资助机构强制规定。一个绝佳的例子是,Journal of Natural Products 从 2023 年 7 月起,要求沉积原始 NMR 数据。

数据标准化。高质量数据集的根基在于实验设计和实践的一致性。作者指出一个尴尬现实:当前公共领域里最丰富、最高质量的天然产物数据,大多出自少数几个实验室,而它们的价值又常因样本多样性不足、单次研究的数据类型有限而打折。要实现标准化,核心是数据库之间的互操作性——而这又因各家用不同的标准、本体和标准化策略而困难重重。作者推荐了通用谱图标识符(USI)、语义网方法和 FAIR(可发现、可访问、可互操作、可重用)数据原则,并在原文 Table 2 中整理了一份可供天然产物研究采用的本体与受控词表清单。

数据注释与整合。给代谢组学数据准确标注化合物结构,能为构建整合结构、生物与基因组信息的机器学习模型打开大门。但注释面临两大难题:同一份数据可以有多种注释方式,难以把不同研究的注释汇成一个统一训练集;多数注释方法本身就带着偏倚和误判。在整合方面,配对组学、肽基因组学、糖基因组学、代谢基因组学以及 NPLinker 等平台,正在尝试把不同类型的数据连起来,但可用工具仍然很少,使用者还需要相当的专业能力来解读结果。

最后,作者点名了两块严重缺乏数据库覆盖的领域:一是生物合成修饰酶的催化活性(这是预测天然产物核心结构的关键),二是生物活性(这是理解构效与构性关系的关键)。它们恰恰限制了我们兑现大规模全基因组测序所许诺的潜力。作者还特意强调:阴性数据——那些不显示活性的分子——对机器学习同样重要,却几乎从不被报道,这造成了文献里巨大的偏倚。

06 底层逻辑

这是本文想专门拆开来谈的部分,因为它能帮你看懂一篇高水平综述背后的匠心。

一场工作坊催生的跨界对话

这篇综述最根本的构思,藏在它的出身里——它脱胎于莱顿大学 Lorentz 中心的一场跨界工作坊,集结了天然产物化学和计算药物设计两个领域、60 多位作者(其中 8 位并列第一作者)。作者在引言里直白地写道,这两个领域此前几乎没有互动。

这个出身决定了全文的骨架。它不是某一个实验室对自己熟悉方向的盘点,而是一次刻意的撮合:先讲一个领域能产出什么(海量分子和通路),再讲另一个领域有什么工具(靶点与活性预测),然后论证为什么把它们接起来会产生一加一大于二的效果。整篇文章的逻辑链条非常工整:机会(两个领域的交叉)、现状(AI 已有的应用)、瓶颈(数据问题)、方案(标准化、沉积、整合的具体路径)、展望。这种从应用到基础设施、再到行动号召的结构,本身就是一种叙事策略:先用成果点燃读者的兴奋,再把话锋一转,逼读者直视那个不那么性感却最致命的问题——数据。

批判性:通篇都在泼冷水

如果只读前半部分,你可能以为这是又一篇为 AI 摇旗呐喊的文章。但这篇综述真正的分量,在于它处处保持的批判和克制:

它专门用 Box 1 讲机器学习评估的陷阱,把垃圾进、垃圾出和数据不平衡如何制造出假高分模型讲得明明白白;它直接批评随机划分验证会高估泛化能力,并指出这背后是合成类似物连同构效关系一起发表的行业习惯;它在结论里旗帜鲜明地告诫——不要仅仅为了赶时髦而用新算法,并搬出奥卡姆剃刀,提醒大家天然产物数据集远小于通用计算机视觉数据集,参数更少的简单模型可能反而更成功、更不容易过拟合;它坦承 AI 通常无法预测全新的化学、从未观察过的作用机制或全新的酶催化活性,因而呼吁继续投入基础生化研究;它甚至点出了一个反讽——AI 完全依赖高质量数据,但维护数据库所需的长期稳定经费却很难拿到。

这种贯穿始终的清醒,让整篇综述的可信度大大提升。它不回避领域的尴尬,反而把这些尴尬当作组织全文的主线。

前瞻性:它在为五年后铺路

批判之外,这篇综述还在认真地为未来铺路,给出了一批具体到可以落地的建议:

为每个发表的化合物配一个标准化机器可读文件,类比 X 射线结构的 cif 文件;建立一个集中的预发表数据沉积入口,再把数据分发给各专业数据库;推动通用谱图标识符、语义网和 FAIR 原则在天然产物领域落地;把大型类药分子数据库 Papyrus 与现有天然产物数据库合并,作为应用降维与可视化方法的起点;倡导用主动学习的思路来生成数据集,去刻画那些缺乏金标准数据集的、未被充分探索的序列、化学、结构和活性空间;建立一个由互操作的专业数据库组成的分布式网络,而不是指望一个大一统的单一库——并明确建议向结构生物学的蛋白质数据库(PDB)和 X 射线晶体学的剑桥结构数据库(CSD)取经。

最打动人的一句话出现在文末:全球科学界的集体资源,远远超过任何单个实验室的能力;只要有恰当的激励和指南,社区共建、共同维护的数据集,蕴含着推动这一领域的巨大潜力。这既是前瞻,也是一份倡议书。

07 END

把这篇综述浓缩成一句话:在天然产物的 AI 时代,缺的不是聪明的算法,而是喂养算法的高质量数据。

它给我们的启示其实超出了天然产物本身。任何一个想拥抱 AI 的科学领域,都会先后撞上同样的问题——数据是否机器可读、是否标准化、是否互操作、是否被妥善沉积和长期维护。算法的进步固然激动人心,但决定上限的,往往是那些不起眼的基础设施工作。这篇文章最大的价值,或许就在于它愿意停下来,认真地把这件枯燥而关键的事讲清楚。

而它给出的解法也意味深长:与其指望某个英雄算法或某个超级数据库,不如把希望寄托在整个社区的协作上。这一点,无论对天然产物,还是对更广阔的科学世界,都同样成立。


参考文献:Mullowney, M. W., Duncan, K. R., Elsayed, S. S. et al. Artificial intelligence for natural product drug discovery. Nature Reviews Drug Discovery 22, 895–916 (2023). https://doi.org/10.1038/s41573-023-00774-7

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 一个被冷落、又被重新发现的化学宝库
  • 02 两条平行线终于交汇
  • 03 AI 已经做到了什么
    • 从基因到分子:基因组与代谢组挖掘
    • 把结构看清楚
    • 它到底有什么用:靶点与活性预测
  • 04 工具箱里的新家伙,和一份冷静的使用说明
    • 分子怎么喂给机器:特征化
    • 深度学习的诱惑与陷阱
    • 数据不够,怎么办
  • 05 真正的拦路虎:数据
    • 散乱的数据库版图
    • 标准化、注释与整合:四道必答题
  • 06 底层逻辑
    • 一场工作坊催生的跨界对话
    • 批判性:通篇都在泼冷水
    • 前瞻性:它在为五年后铺路
  • 07 END
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档