
DRUGONE
微生物来源的次级代谢产物具有重要的药用价值,但目前大多数已知分子仅来源于可培养微生物,而这仅占全球微生物多样性的一小部分。宏基因组学的发展揭示了大量潜在的生物合成基因簇(BGCs),但由于这些基因簇结构复杂且酶具有高度的底物多样性与反应可塑性,将基因序列准确转化为化学结构仍然极具挑战。
研究人员提出了 DeepSeMS,一种基于Transformer的大语言模型框架,可直接从BGC序列预测对应的次级代谢产物结构。该方法通过将生物合成基因编码为功能结构域序列,并结合特征对齐的数据增强策略,实现了高精度结构预测。
在评估中,DeepSeMS对96.38%的隐匿BGC成功生成化学上合理的结构预测。将该模型应用于全球海洋宏基因组数据后,研究人员预测了超过6万个次级代谢产物,揭示出丰富的化学多样性、生态特异性以及显著的生物医学潜力,尤其是在抗生素发现方面。研究表明,基于深度学习的方法能够有效挖掘地球最大但尚未充分探索的微生物生态系统中的隐藏合成潜力。

次级代谢产物,尤其是微生物来源的分子,在抗菌、抗炎、抗肿瘤以及代谢调控等方面具有重要作用。然而,目前临床应用的大部分药物来源于可培养微生物,而这些仅占全球微生物资源的极小部分。
随着宏基因组测序的发展,研究人员已经能够从未培养微生物中识别大量BGC,为新型天然产物的发现提供了巨大机会。尤其是全球海洋,作为地球上最大且最复杂的生态系统之一,蕴藏着极其丰富但尚未充分开发的微生物资源。
过去几十年中,BGC识别技术从基于序列比对的方法逐渐发展到基于规则和隐马尔可夫模型的方法,并进一步引入深度学习框架。然而,从BGC序列直接预测其对应的小分子结构仍然是该领域的核心瓶颈。
造成这一困难的关键原因在于:生物合成酶具有高度的功能灵活性,同一类酶可以催化多种反应,产生结构差异显著的分子。同时,隐匿BGC通常具有非典型结构组合,使得基于规则的方法难以覆盖。
近年来,大语言模型在序列建模方面表现出强大能力,使得将“序列到结构预测”视为一种“语言翻译问题”成为可能。然而,由于训练数据有限以及生物序列与自然语言差异较大,这一任务仍具有挑战性。
方法
DeepSeMS将BGC到分子结构的预测建模为一个“序列到序列”的学习问题。输入为经过功能结构域编码的BGC序列(Pfam标识符),输出为表示化学结构的SMILES字符串。
在序列表示方面,研究人员比较了多种编码策略,最终选择功能结构域序列作为最佳表示方式。这种方式在信息表达能力与计算效率之间取得了平衡,既保留了底物特异性和合成逻辑,又避免了长序列带来的计算开销。
为了缓解训练数据不足的问题,研究人员设计了特征对齐的数据增强方法。在该方法中,保持分子骨架不变,通过改变外围结构生成多样SMILES表示,从而提高模型泛化能力。
此外,研究人员采用集成学习策略,为每个BGC生成多个候选结构,并结合物化性质和新颖性指标进行排序,从而提高预测可靠性。

图1:DeepSeMS模型整体框架与序列表示策略。
结果
DeepSeMS整体性能
DeepSeMS在结构预测任务中表现出显著优势。在已知BGC数据集中,模型成功为97.55%的基因簇生成至少一个合理结构,明显优于现有方法。
在结构相似性方面,模型生成结构与真实分子具有更高一致性,并在结构恢复率和骨架恢复率上大幅领先。
隐匿BGC的泛化能力
在隐匿BGC数据集中,DeepSeMS表现出强大的泛化能力。研究人员在940个未表征BGC中,成功为906个生成合理结构,成功率达到96.38%。
相比之下,现有方法的成功率显著较低。这说明DeepSeMS能够从有限数据中学习生物合成规律,并推广到未知空间。
根据论文第4页与图2(性能对比图),DeepSeMS不仅生成数量更多的候选结构,还具有更高的结构多样性和覆盖更广的化学空间。

图2:不同方法在隐匿BGC预测任务中的性能比较。
结构多样性与化学空间扩展
通过对预测分子的分析,研究人员发现DeepSeMS能够生成覆盖更广化学空间的结构。根据第5页图2c的可视化结果,模型生成分子在主成分空间中分布更为广泛,表明其具备较强的结构探索能力。
此外,预测分子的分子量、合成可行性以及类药性分布均符合天然产物的典型特征。
全球海洋微生物组中的隐藏化学空间
研究人员将DeepSeMS应用于全球海洋宏基因组数据,分析了超过4.5万个BGC,最终预测得到超过6万个次级代谢产物结构。
结果显示,大多数预测分子与已知分子差异显著,其中约97%的分子在结构上与已有数据库不相似,显示出极高的新颖性。
不同海洋区域之间表现出明显的化学差异。例如,北极海域具有较高的独特分子比例,而南大洋则展现出更高的整体多样性。

图3:全球海洋次级代谢产物的结构新颖性与地理分布。
生物医学潜力分析
进一步分析发现,大量预测分子具有潜在抗生素结构特征。研究人员通过虚拟筛选识别出超过7500个具有抗生素相关结构片段的候选分子。
这些分子覆盖多种作用机制,包括细胞壁合成抑制、蛋白质合成抑制以及DNA/RNA合成干扰等。同时,部分结构与现有抗生素存在差异,具有潜在抗耐药优势。
此外,研究人员还发现大量类似ectoine的分子,这些分子可能在极端环境适应以及生物保护方面具有应用潜力。

图4:潜在抗生素及功能分子。
AI驱动的天然产物发现平台
为了促进实际应用,研究人员开发了DeepSeMS在线平台。用户可以输入BGC注释文件,系统将自动返回候选分子结构、预测评分及相关性质。
该平台还集成了全球海洋分子数据库,支持按地理位置、环境条件以及BGC类型进行筛选,为天然产物发现提供了重要工具。

图5:DeepSeMS在线平台与应用流程。
讨论
本研究提出了一种新的研究范式,即利用大语言模型实现从基因序列到化学结构的直接生成。这种方法突破了传统基于规则的限制,使模型能够学习更广泛的生物合成规律。
DeepSeMS的成功表明,基于功能结构域的表示方式可以有效连接生物序列与化学结构,从而实现可解释性与性能的平衡。同时,数据增强策略在小数据场景中发挥了关键作用。
在应用层面,DeepSeMS为大规模天然产物挖掘提供了可扩展工具,尤其是在抗生素发现领域具有重要意义。然而,研究人员强调,模型预测应被视为假设生成工具,仍需通过实验验证其真实性。
未来研究可以结合转录组、代谢组等多模态数据,并进一步优化BGC边界识别与功能注释,从而提升预测准确性。同时,通过与实验循环结合,有望逐步建立更加可靠的AI驱动天然产物发现体系。
整理 | DrugOne团队
参考资料
Xu, T., Yang, Y., Zhu, R. et al. DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-026-00983-1