

文献来源:Ashyrmamatov et al., "A survey on large language models in biology and chemistry," Experimental & Molecular Medicine, 58, 970–980 (2026). DOI: 10.1038/s12276-025-01583-1 适读人群:生命科学 / 药学 / 化学方向研究生与科研工作者;AI 医药领域从业者;对 AlphaFold 之后科学 AI 走向感兴趣的读者
过去五年,大语言模型(Large Language Models, LLMs)从 NLP 领域溢出,席卷了蛋白质设计、基因组学、药物发现、化学合成等几乎所有分子科学分支。相关论文快速涌现,研究者们面临的最大困惑不是 信息太少 ,而是 信息太碎 。
这篇由首尔大学五位作者联合完成、发表于 Nature 旗下期刊《Experimental & Molecular Medicine》的综述,试图做一件更难的事:在统一的分析框架下,同时覆盖生物大分子(蛋白质、核苷酸、单细胞)与小分子化学两个领域,系统比较表征策略、模型架构、训练范式与下游应用。
这种双域并举的视角,使其成为目前为止少数能同时回答"蛋白质语言模型和化学语言模型有何本质共性与差异"的参考文献之一。本文将沿着综述的核心逻辑,逐层深入,带你建立对这一领域的系统认知。
LLM 的核心能力并非"理解"语义,而是对 token 序列的统计结构进行建模。只要某种科学数据能被编码为离散符号的序列,transformer 架构原则上就能学习其内在规律。
这一洞察带来了一个核心问题:如何把复杂、多维的分子信息转化为模型可处理的格式?
综述明确指出,这不是工程细节,而是根本性的设计决策——表征决定了模型能学到什么、能泛化什么、最终能发现什么。
挑战 | 具体表现 | 影响 |
|---|---|---|
语义对齐 | 分子语法规则与自然语言分布差异巨大 | 通用 LLM 直接迁移效果有限 |
信息密度 | DNA 仅 4 种碱基 vs 蛋白质 20 种氨基酸 vs 化学分子近乎无限的结构空间 | 不同模态需要差异化的 tokenization 策略 |
多模态性 | 同一分子可有序列、图、3D 坐标等多种等效表示 | 如何融合多模态信息是前沿难题 |

综述引用 Kaplan 等人的 Scaling Law 研究,强调模型规模和训练数据量是涌现能力的关键驱动力。但对于科学 LLM 而言,规模与表征必须同时到位:一个在糟糕表征上训练的巨型模型,其上限仍然受到表征瓶颈的限制。
蛋白质天然具有序列性,因此是最早成功应用 NLP 技术的生物模态。

传统结构测定(X 射线晶体学、NMR、冷冻电镜)成本高、周期长,已知序列数(UniProtKB)与已解析结构数(PDB)之间存在数量级差距。
AlphaFold2(AF2) 的核心创新:
AF2 之后的扩展方向:
DNA 仅由 A/T/G/C 四种碱基构成,字母表比蛋白质小 5 倍,信息密度更低,且没有天然的"词"边界概念,这使得 tokenization 策略的选择尤为关键。
模型 | 架构 | 关键创新 |
|---|---|---|
DeepSite | CNN + LSTM | 早期尝试,受限于长程依赖捕捉能力 |
DNABERT | BERT (Encoder-only) | k-mer tokenization(如 3-mer、6-mer)引入局部上下文 |
GROVER / DNABERT2 | BERT | 采用 BPE(字节对编码)替代固定 k-mer,减少序列信息损失 |
Caduceus | Mamba | 字符级 tokenization + 双向建模 + 反向互补等变性,优于 transformer 的长程性能 |
HyenaDNA | Hyena | 专为超长基因组序列设计,单核苷酸分辨率 |
Evo | StripedHyena | 多模态(DNA + RNA),支持从分子到基因组尺度的序列建模 |
MegaDNA | Transformer (decoder) | 生成式 DNA 序列模型 |
GenSLM 是代表性 RNA 语言模型,采用密码子级词表(codon-level vocabulary)以避免移码问题,能够预测突变对 RNA 功能的影响效应(如 SARS-CoV-2 进化动态分析)。
单细胞 RNA 测序(scRNA-seq)数据是高维基因表达向量,天然不具有序列性。主流解决思路是:按表达量对基因排序,将同一细胞内的基因集合视为一个"词序列"。
令人惊讶的是,未经生物特化训练的通用模型同样展现出潜力:

SMILES(Simplified Molecular Input Line Entry System)将分子结构编码为线性 ASCII 字符串,是目前最主流的化学语言格式。
核心局限:
改进变体:
将分子抽象为原子节点与化学键边的图结构,保留 SMILES 缺失的拓扑约束信息。
代表模型:GROVER(图神经网络 + transformer)、MG-BERT(图注意力机制 + BERT)。
主要挑战:tokenization 与序列模型对齐困难,缺乏标准化的图序列化流程。
直接编码原子的三维空间坐标,捕捉分子几何特征,对分子性质预测和药物设计至关重要。

3.2.1 Encoder-only(BERT-like):分子理解与性质预测
适合需要提取上下文表征的任务:分子性质预测、活性分类、毒性预测。
模型 | 基础架构 | 关键特性 |
|---|---|---|
ChemBERTa | RoBERTa | MLM + 多任务回归,辅以 RDKit 分子特征 |
Mol-BERT | BERT | 化学感知 token 级依赖建模 |
MoLFormer | 线性 attention + 旋转嵌入 | 紧凑表征,适合中小分子 |
SELFormer | BERT | 基于 SELFIES 表示,提升化学合法性 |
GROVER | 图增强 transformer | 拓扑特征直接整合进编码器 |
适合自回归生成任务:de novo 药物设计、骨架补全、条件分子生成。
模型 | 关键特性 |
|---|---|
MolGPT | 因果自回归,支持条件生成策略 |
GP-MoLFormer | MoLFormer-XL 的解码器变体,骨架补全 + 条件性质优化 |
cMolGPT | 靶点特异性 de novo 设计 |
Taiga | GPT + 强化学习,多目标分子合成导向 |
iupacGPT | 基于 IUPAC 命名生成分子 |
适合序列映射任务:逆合成规划、反应预测、跨域分子翻译。
模型 | 任务 | 特色 |
|---|---|---|
Molecular Transformer | 反应预测 | 最早将 transformer 引入化学反应预测 |
Chemformer | 生成 + 判别 | BART 架构,多任务 |
Text+ChemT5 | 化学-自然语言双模态 | T5 骨架,文本到分子双向转换 |
SELFIES-TED | 化学约束生成 | BART 风格,强泛化性 |
SCROP | 逆合成 | 自校正 transformer |
RetroTRAE | 逆合成 | 片段 tokenization 跟踪原子级转变 |
化学信息天然多模态(文本描述、分子图、2D 结构式、3D 坐标、光谱数据),标准 CLM 难以全面捕捉。
同时训练多个相关任务,共享权重,迫使模型学习跨任务通用表征:
在推理时动态检索外部知识库,提升模型在特定任务上的表现:
全参数微调在低资源场景下易过拟合,参数高效方法(PEFT)成为主流:
方法 | 核心思想 |
|---|---|
LoRA | 低秩矩阵分解,大幅减少可训练参数量 |
Adapter Tuning | 插入小型适配模块,冻结主干参数 |
Prefix Tuning | 在输入前缀注入可训练向量 |
Prompt Tuning | 仅优化软提示向量 |
AlphaFold 系列引发的结构预测革命已广为人知,但综述更关注后 AlphaFold 时代的演进方向:
这是目前最令生物学家兴奋的方向之一:不再只是预测已有蛋白质的结构,而是从零设计具有特定功能的新蛋白质。
RFdiffusion 等扩散模型通过 SE(3) 等变性将几何约束纳入生成过程,在 scaffolding、binder 设计等任务上取得重大突破。ProteinMPNN 和 Foldseek 的组合进一步加速了设计-验证迭代循环。
transformer 类模型在以下任务上已展示出超越传统方法的能力:
CLM 正系统性地渗透进药物发现流程:
这是综述最具前瞻性的部分。LLM 与外部工具的结合催生了"科学智能体":
代表性系统:
核心范式 ReAct(Reason + Act):交替进行 LLM 推理与外部工具调用,形成闭环的多步骤工作流。
⚠️ 当前局限:这些系统仍严重依赖确定性工具链和人类监督,在开放式科学推理方面仍有很大差距。
数据库/基准 | 内容 | 主要用途 |
|---|---|---|
ZINC-22 | 数十亿可合成小分子(SMILES) | 化学语法学习,虚拟筛选 |
PubChem | 1.2 亿+ 化合物 | 化学结构-活性关系 |
ChEMBL | 类药分子 + 生物活性数据 | 性质预测,靶点活性 |
USPTO | 大规模反应数据 | 反应预测,逆合成 |
QM9 / QMugs | 量子化学属性注释 | 量子性质预测 |
MoleculeNet | ESOL、FreeSolv、BBBP、Tox21 等 | 标准化多任务性质预测基准 |
数据库/基准 | 内容 |
|---|---|
PubMed / PubMed Central | 生物医学文献语料 |
MIMIC-III / eICU | 临床重症监护数据 |
MedQA / PubMedQA / BioASQ | 医学问答基准 |
Therapeutics Data Commons | 药物发现多任务机器学习数据集 |
DisGeNET / DrugBank / STRING | 基因-疾病 / 药物-靶点 / 蛋白质互作网络 |
Human Cell Atlas | 大规模单细胞图谱 |
综述指出,尽管数据积累迅速,跨化学与生物域的系统性对比研究仍然匮乏,标准化基准体系尚不完善,这严重制约了领域间的知识迁移与模型能力评估。
除了专用科学 LLM,ChatGPT 等通用大模型也在化学与生物领域展现出令人意外的能力:
研究表明,在逆合成规划和反应分类任务上,精心设计的提示可以驱动 LLM 达到令人惊讶的表现水平。但提示敏感性、领域知识有限和输出不一致性仍是主要瓶颈。
通过在化学文献和领域数据集上继续预训练,ChatGPT 类模型可以内化领域语言与逻辑:
维度 | 具体问题 |
|---|---|
表征 | SMILES 非唯一性;3D 信息缺失;多模态融合对齐困难 |
数据 | 跨域对比基准缺乏;高质量标注数据稀缺;数据分布偏差 |
模型 | 幻觉(化学合法性违反);可解释性不足;长序列建模效率 |
评估 | 标准化基准不完善;实验验证循环成本高 |
伦理与安全 | 双用途风险(如有害分子生成);监管框架尚未建立 |
综述总结了以下前沿趋势:
这篇综述最大的价值在于提供了一个统一的分析框架:
分子信息 → 表征设计 → 模型架构 → 训练策略 → 下游任务无论是蛋白质语言模型还是化学语言模型,无论是结构预测还是分子生成,都可以沿着这条主线进行定位和比较。
核心判断:
对于正在这个领域工作或希望进入的研究者而言,这篇综述是建立系统认知的绝佳起点。