首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Exp. Mol. Med.|生物和化学领域大模型全景综述

Exp. Mol. Med.|生物和化学领域大模型全景综述

作者头像
DrugOne
发布2025-12-17 17:03:30
发布2025-12-17 17:03:30
1100
举报
文章被收录于专栏:DrugOneDrugOne

人工智能(AI)正通过提供可扩展的计算框架,重塑生物医学研究范式,使其能够更有效地应对生物系统的高度复杂性。处于这场变革核心的是生物与化学语言模型,包括大语言模型,它们将分子结构重新概念化为一种可由先进计算技术解析与操作的“语言”。

2025年11月15日,首尔大学研究团队在《Experimental & Molecular Medicine》期刊上发表一篇题为“A survey on large language models in biology and chemistry”的综述文章。

在该综述中,作者系统梳理了此类模型在生物学与化学领域的角色,回顾了其从分子表征到分子生成与优化的发展脉络。文章总结了适用于生物大分子和小有机化合物的关键分子表征策略,并深入讨论了这些策略在人工智能应用中的优势与固有局限。作者进一步阐述了核心模型架构及其复杂的预训练方法。最后,还探讨了快速兴起的智能体系统,展示了它们在自动化与加速科学发现方面的潜力,并提出了将影响AI在生物医学领域未来发展的关键技术、伦理与监管议题。

背景

近年来,随着领域特定、精心整理的数据集不断增长,大语言模型(LLMs)在生物与化学领域的应用取得了迅速进展。分子与蛋白质数据库以及海量科学文献支撑了多样化的训练策略,从自监督学习目标到多模态数据融合。然而,尽管相关研究不断涌现,这些发展仍然相对分散,针对化学与生物学领域之间的系统性比较仍较为缺乏。

本综述聚焦于LLMs如何被适配以满足化学与生物学中独特的任务需求。重点关注表征方式、模型架构以及训练范式如何塑造模型在不同领域和任务中的表现。根本挑战在于如何将复杂、多维的分子信息转换为语言模型可处理的形式(图1)。综述的目标是阐明当前的主要成果与未解难题,并展望这些模型未来将如何更有效地促进科学发现与机制理解。

图1 化学领域及生物领域的分子表征

生物语言模型

LLMs的突破性进展为数据分析带来了全新的范式。在生物学领域,研究者已开始广泛利用多种类型的生物数据来提升模型能力。此外,将Transformer架构引入生物学问题也取得了显著进展。与此同时,大量研究正持续探索如何在模型中更精准地刻画生物系统的复杂性(表1)。

表1 生物语言、结构与多模态模型的分类

蛋白质语言模型。蛋白质的序列特性使其非常适合采用来自自然语言处理的语言建模技术。早期模型代表如ProtBERT、MSA Transformer以及ProtTrans。蛋白质设计旨在生成具有全新功能和结构的蛋白质,生成式模型在其中发挥关键作用。代表性方法包括ProGen、ProGen2、ProtGPT2。近年来,最初用于根据文本提示生成图像的扩散模型也被改编用于蛋白质结构生成,如RFdiffusion。这类结构建模推动了蛋白支架设计任务的发展,ProteinMPNN和Foldseek等工具进一步加速了蛋白设计领域的进展。

蛋白质结构模型。蛋白质结构模型用于从蛋白质的一级氨基酸序列预测其三级结构。AlphaFold(AF)和AlphaFold2(AF2)在蛋白质结构预测领域表现卓越,分别在CASP13和CASP14(蛋白质结构预测关键评估)中取得了突出成果。为了扩展蛋白质结构模型的应用性与可及性,一些平台已被开发出来,如ColabFold、Phyre2.2。

核苷酸语言模型。DNA序列仅由四种核苷酸(ATGC)构成,相比之下蛋白质序列由约20种氨基酸组成。受限的字母表降低了信息密度,使得构建有效的DNA语言模型更具挑战性。代表性方法包括DeepSite、DNABERT、Caduceus、MegaDNA等。GenSLM是一种RNA语言模型,通过捕捉原始RNA与突变RNA序列之间的差异来预测突变效应。

单细胞语言模型。与蛋白质和核苷酸不同,单细胞基因表达数据并非天然具备序列结构,因此研究者提出根据表达水平对基因进行排序的策略。一个细胞中的基因被视作句子中的词,并通过Transformer模型捕获其潜在依赖关系,与其他生物语言建模任务类似。代表性工作包括scBERT、scGPT、GenePT、CancerGPT等。

生物分子表征。蛋白质和核酸等生物大分子可通过多种模态进行表征,以支持机器学习应用。序列表征使用氨基酸或核苷酸字符串,是ESM、ProtBERT、DNABERT等蛋白与基因组语言模型的基础。结构表征使用原子坐标、接触图或距离矩阵来捕获空间信息,支持AF、ESMFold等结构预测模型。图表示将生物分子抽象为节点与边,能用于采用几何深度学习方法的模型,如SE(3) Transformer。功能表征包括基因本体(GO)术语、蛋白家族注释、亚细胞定位等,为模型提供额外的生物学上下文。细胞层面表征,如scRNA-seq的高维表达向量形式,用于表征单细胞组学数据。

分词策略。分词方法从传统机器学习技术发展到更适用于生物分子的策略,这些方法对构建准确细致的生物分子模型至关重要。k-mer分词(如3-mer、6-mer)用于捕获局部生化上下文,应用于DNABERT、ProtBERT等模型。BPE / Unigram分词基于大规模序列语料训练,被DNABERT2、ESM、ProGen等模型采用,以提高压缩效率与泛化能力。密码子级/保持密码子的分词用于避免核酸序列建模中的移码伪影。对于单细胞模型中的分词,scBERT使用gene2vec方法生成基因嵌入,使BERT架构能适配单细胞RNA测序数据。

分子细胞生物学的整合建模。AF2展示了人工智能在蛋白质结构预测中的强大能力,并由此启发了一系列后续研究。诸如AlphaFold3、RoseTTAFoldNA和RoseTTAFold All-Atom等模型将预测对象从蛋白质扩展至其他具有重要生物学意义的分子,包括RNA、DNA和配体。与此同时,基于LLMs的方法开始将结构信息纳入建模范畴,而不再局限于序列层面。ESM3同时嵌入序列、结构和功能信息,标志着向多模态表征的过渡。在生物语言模型的统一建模背景下,基础模型旨在通过整合多种生物模态来学习全面的细胞表征,包括表观遗传标记、空间转录组、蛋白表达数据以及扰动响应特征等,从而深入理解细胞功能。这种整合趋势反映出研究方向正从单一模态模型转向更能反映生命系统复杂性的统一表征方法。

多模态基础模型。多模态大语言模型(MLLMs)为对齐临床文本、蛋白质序列和分子结构等异质数据类型提供了统一框架。BioMedGPT-10B在细胞序列、蛋白结构和分子结构上的训练,用于蛋白和分子的问答任务,为药物发现提供支持。大语言模型正逐步成为生物医学领域的统一多模态平台(图2)。

图2 生物语言模型的下游任务

化学语言模型

模型类型

化学语言模型(CLMs)根据架构设计的不同,这些模型可分为多种类别,主要包括仅编码器(BERT类)模型、仅解码器(GPT类)模型、编码器–解码器模型以及多模态LLM(图3)。

仅编码器模型旨在提取分子的上下文表征,适用于性质预测和分子理解任务。这类方法包括ChemBERTa、Mol-BERT、MoLFormer、MolRoPE-BERT、MFBERT、SELFormer、semi-RoBERTa以及GROVER。仅解码器模型针对自回归生成进行了优化,已成为de novo分子设计的重要工具。此类方法包括MolGPT、GP-MoLFormer、SMILES-GPT、iupacGPT、cMolGPT以及Taiga。编码器–解码器模型专为序列到序列任务设计,在逆合成分析、反应预测以及跨领域分子翻译等应用中尤为有效。此类方法包括Text+ChemT5、SELFIES-TED、Chemformer、BARTSmiles、MOLGEN、Molecular Transformer、Retrosynthesis Transformer、SCROP、GOPRO、RetroTRAE、GCT、RetroSynth-Diversity以及Disconnection-Aware Transformer。多模态大语言模型代表性方法包括Mol-LLaMA、GIT-Mol、LLM-MPP、PRESTO、ChemVLM以及nacho。

图3 化学语言模型的代表性架构

预训练与微调策略

自监督学习(SSL)常用于在大规模未标注数据上对模型进行预训练,对于确保所学表示具有良好的泛化能力至关重要。其中,掩码语言建模(MLM)是编码器类语言模型最广泛采用的预训练任务。另一类SSL方法是去噪重建,即模型从受损或带噪声的输入重建原始的干净数据。多任务学习(MTL)是一种利用多个相关任务之间共享信息以提升泛化能力和整体性能的强大范式。代表性方法包括Text+ChemT5以及nach0-pc。检索增强生成(RAG)通过整合一个隐式检索器,使模型在预训练、微调和推理阶段能够动态访问外部文档。监督微调通过带标注数据集将预训练的CLMs调整到特定任务,使模型输出与实验注释对齐,可用于性质预测、反应分类、合成路线规划等应用。此外,多种参数高效微调方法(PEFT)包括适配器微调、前缀微调、提示微调以及低秩自适应。无论使用何种微调策略,数据质量始终是决定模型性能、可靠性与可解释性的关键因素。

分子表征

最具代表性的基于字符串的表征是SMILES,其简洁、机器可读以及可逆性,使其在化学信息学中被广泛采用,并可与语言模型兼容。但存在一些局限,包括非唯一性以及立体化学与三维信息缺失。之后提出了多种扩展语法,包括DeepSMILES、SELFIES和Atom-in-SMILES(AIS),重点改进有效性、可解释性及与机器学习系统的兼容性。对于基于图的表征,图结构输入可捕获SMILES中缺失的分子连接性和拓扑约束,提供更丰富的结构上下文。其存在的问题主要在于分词、与序列模型的对齐以及缺乏标准化处理流程。近期进展将CLMs扩展至线性与二维表征之外,通过引入显式三维分子结构(尤其是点云方法)捕获空间特征。这些模型利用几何深度学习提取对分子性质预测和药物设计等任务至关重要的空间特征。代表性模型包括Uni-Mol、nach0-pc、3DMolT5。

分词策略

在CLMs中,分词指将分子字符串转换为离散的、模型可读的单元。化学分词需遵循原子符号、电荷以及化学键语法的规则。对SMILES进行字符级分词并不合适,因为它通常产生物理或化学无意义的token。领域特定的方法包括Atom Pair Encoding(APE)以及token 频率正则化。Atom-in-SMILES(AIS)分词将局部拓扑信息嵌入token中,在不改变语法的情况下提高分辨率。这种方法可产生更均衡的token分布,并在数据稀缺情况下提升优化性能。

CLMs在生物医学中的应用

CLMs在生物医药研究中应用日益广泛,尤其是在药物发现领域。这些模型可直接从分子字符串预测溶解度、生物利用度、毒性等性质,从而快速筛选候选化合物,减少对实验测定的依赖。在生物医学中,这类工具可用于生成针对特定治疗需求的抑制剂、抗生素及中枢神经系统(CNS)靶向分子。此外,CLMs可预测反应产物并辅助逆合成设计。CLMs还可学习与不良反应相关的结构模式以此辅助早期毒性评估。

生物/化学语言模型的数据集与基准

化学结构数据库如ZINC、PubChem和ChEMBL提供数百万个小分子SMILES表示,支持学习化学语法及结构–活性关系。用于反应与合成建模的数据集,如USPTO、Reaxys、QM9和QMugs,提供丰富的反应记录和量子性质标注。对物理性质与生物活性任务进行预测评估的基准数据集,如MoleculeNet(包括ESOL、FreeSolv、Lipophilicity、Tox21、SIDER、BBBP和HIV)被广泛采用。

对于生物医学方面,大型语料库如PubMed、PubMed Central(PMC),以及临床数据集如MIMIC-Ⅲ、eICU和i2b2,使模型能够学习领域特定语言和临床推理模式。补充性基准如MedQA、PubMedQA、BioASQ和MultiMedQA用于评估医学问答及多跳推理能力。对于治疗学研究和知识抽取,数据集如Therapeutics Data Commons(TDC)、DisGeNET、DrugBank、PHARMGKB和STRING提供跨基因–疾病、药物–靶点及蛋白–相互作用网络的结构化标注。

LLMs在生物与化学中的应用

提示工程已成为将ChatGPT和其他LLMs适配科学问题的最便捷方式,无需额外训练。该方法依赖精心设计的文本提示来引导模型输出。常用技术如零样本提示、小样本提示和思维链(CoT)提示已在多种化学任务中显示出效用。然而,提示敏感性、领域知识有限及输出不一致仍是主要限制。为获得更高任务特异性,微调提供了更稳健的路径。通过在化学语料(包括科学文献和整理数据集)上继续预训练,ChatGPT类模型能够内化领域语言和逻辑。然而,微调结果高度依赖数据质量和任务设计。此外,ChatGPT已与智能体系统结合,使LLM能够使用工具,从而实现多步工作流程和自主决策。

参考链接:

https://doi.org/10.1038/s12276-025-01583-1

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档