首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型能否成为药化专家?SMDD-Bench 给出第一份系统答卷

大模型能否成为药化专家?SMDD-Bench 给出第一份系统答卷

作者头像
MindDance
发布2026-05-26 19:39:52
发布2026-05-26 19:39:52
10
举报

把大模型放进药物发现流程,它要做的事情远不止回答一个化学知识点。真正的药物化学工作更像一场连续决策:手里有一个能结合靶点的分子,但溶解度不够,代谢太快,可能抑制 hERG,穿不过血脑屏障,或者一改结构就丢了结合姿势。每一步都要在分子结构、蛋白口袋、ADMET 性质和有限实验预算之间取舍。

5 月,Kevin Han、Renfei Zhang 等来自卡内基梅隆大学、宾夕法尼亚大学以及 Stealth 机构的研究者发布了 SMDD-Bench,题目是 Can LLMs Solve Real-World Small Molecule Drug Design Tasks? 。这项工作给大语言模型智能体设计了一套更接近真实药物化学流程的考试:502 个保证可解的小分子药物设计任务,覆盖 二维药效团识别、结合口袋相互作用热点发现、骨架跃迁、先导化合物优化、片段组装 五类任务,涉及 102 个蛋白靶点和 855 个小分子。

研究者让 7 个前沿开源与闭源模型参赛。结果很克制:表现最好的 GPT-5.4 整体成功率也只有 40.2% 。更值得注意的是,成功主要来自先导化合物优化;一旦任务转向三维空间判断,例如识别蛋白口袋中真正稳定的相互作用点、换骨架但保留结合模式、把片段在口袋里组装成可结合分子,模型表现迅速下滑,很多任务接近 0%。

这篇工作给出的信号很清楚:当前大模型已经能在某些局部分子优化任务中发挥作用,但离自主药物化学家还有一段距离。差距不只在化学知识储备,还在 三维直觉、跨轮结构–活性关系总结、候选分子选择、工具调用稳定性和多样化探索能力


药物化学真正难的,是连续地做取舍

在外行视角里,小分子药物设计似乎可以被简化为生成一个分子,然后预测它能不能结合某个蛋白。但在药物化学家的日常工作里,分子很少只为一个指标服务。

一个候选分子要有足够强的靶点结合能力,也要有合理的溶解度、膜通透性、代谢稳定性、血浆蛋白结合水平、心脏安全性和遗传毒性风险。它还要尽量可合成,不能带着太明显的结构警示,最好还能避开已有知识产权风险。药物化学里最麻烦的地方,是这些目标经常互相拉扯。提高脂溶性可能改善膜通透性,也可能带来更高的血浆蛋白结合和安全性风险;增加极性可能改善溶解度,也可能牺牲血脑屏障通透性;局部换一个官能团可能改善 CYP3A4 相关风险,却让原本稳定的蛋白–配体相互作用松掉。

这也是为什么很多早期分子生成评测并不能完全代表真实药设场景。过去不少化学大模型基准更偏向单轮问答、性质预测、逆合成单步判断、分子描述或简单分子生成。它们能测试模型是否懂一些化学符号、反应规则和基础结构模式,但很难测试模型是否能像药化专家那样,在多轮迭代中维护假设、分析失败、调用工具、调整分子、再用有限实验预算验证。

SMDD-Bench 把评测重心往前推进了一步。它关心的不是模型能不能说出某个基团叫什么,而是模型能不能拿着蛋白口袋、起始分子、片段坐标、ADMET 目标和有限的预测工具调用次数,走完一段真实药物设计里的长链条。这个转变很关键,因为 智能体式药物设计的核心并不是一次性生成答案,而是在不确定性里规划、试错、选择和收敛


SMDD-Bench 如何把药设问题变成可评分任务

SMDD-Bench 共包含 502 个任务实例。五类任务不是随意拼出来的化学习题,而是对应了小分子药物发现中的几类典型工作流。

SMDD-Bench 将小分子药物设计拆成五类多轮任务:二维药效团识别、结合口袋相互作用热点发现、骨架跃迁、先导化合物优化和片段组装。每类任务都要求模型在化学结构、蛋白口袋、预测工具和有限验证预算之间做连续决策。
SMDD-Bench 将小分子药物设计拆成五类多轮任务:二维药效团识别、结合口袋相互作用热点发现、骨架跃迁、先导化合物优化和片段组装。每类任务都要求模型在化学结构、蛋白口袋、预测工具和有限验证预算之间做连续决策。

SMDD-Bench 将小分子药物设计拆成五类多轮任务:二维药效团识别、结合口袋相互作用热点发现、骨架跃迁、先导化合物优化和片段组装。每类任务都要求模型在化学结构、蛋白口袋、预测工具和有限验证预算之间做连续决策。

第一类是 二维药效团识别。模型会拿到一个蛋白序列,以及来自 ChEMBL 的 10 个实验活性分子和 10 个实验非活性分子。它要写出一个 Python 函数,用来判断新的 SMILES 分子是否符合某种可泛化的药效团模式。这里考的不是死记训练样本,而是能否从少量活性与非活性分子中提炼出有区分力的结构假设。

第二类是 结合口袋相互作用热点发现。模型拿到蛋白结构和口袋位置,需要输出 3 个最可能被多种结合分子保守利用的三维相互作用点,并标注相互作用类型,例如氢键供体、氢键受体、芳香相互作用、疏水相互作用、阳离子或阴离子相互作用。这个任务很接近药物设计中的口袋读图能力:哪里是值得抓住的热点,哪里只是偶然接触。

第三类是 骨架跃迁。模型拿到一个蛋白–配体复合物,需要提出一个新分子。这个新分子要有不同的骨架,但仍然复现原始配体在口袋中的关键相互作用。药物研发里,骨架跃迁常用于避开不理想骨架、拓展结构–活性关系空间、降低脱靶风险或处理知识产权问题。它对模型的要求很高,因为换骨架不是简单改侧链,而是在改变整体分子框架后仍维持三维结合逻辑。

第四类是 先导化合物优化。这是 SMDD-Bench 中数量最多的一类,共 340 个任务。模型从一个参考分子出发,要在保持一定相似性的前提下改善若干 ADMET 或结合亲和力指标,同时让其他性质保持在指定范围内。任务还会施加药物相似性硬约束,例如分子量、logP、拓扑极性表面积、氢键供体与受体数量、可旋转键、形式电荷、合成可及性分数,以及 PAINS、Brenk、NIH 等结构警示过滤。这个设置很像真实项目中的日常迭代:不是发散地造新分子,而是在一个已有先导化合物附近做可控优化。

第五类是 片段组装。模型会看到一个或两个已经放在蛋白口袋中的三维分子片段,它要设计一个完整、类药、能高概率结合的分子,并且在重新对接或共折叠后仍能保留输入片段的空间姿态。片段药物发现的核心正是把弱结合片段延展或连接成更强的先导化合物,因此这个任务非常考验模型对三维几何和口袋互补性的理解。

SMDD-Bench 的任务集中在先导化合物优化,但同时覆盖三维口袋热点、骨架跃迁和片段组装等更考验空间推理的任务;先导优化任务中,ADMET 与结合亲和力既可能作为优化目标,也可能作为保持不变的约束。
SMDD-Bench 的任务集中在先导化合物优化,但同时覆盖三维口袋热点、骨架跃迁和片段组装等更考验空间推理的任务;先导优化任务中,ADMET 与结合亲和力既可能作为优化目标,也可能作为保持不变的约束。

SMDD-Bench 的任务集中在先导化合物优化,但同时覆盖三维口袋热点、骨架跃迁和片段组装等更考验空间推理的任务;先导优化任务中,ADMET 与结合亲和力既可能作为优化目标,也可能作为保持不变的约束。

从任务构成看,SMDD-Bench 并没有把药物设计压扁成单一指标。它保留了药物化学中最真实的部分:分子不是越强越好,也不是越新越好,而是要在多个相互牵制的性质之间找到能落地的平衡点。


关键设计:藏一枚见证分子,让每道难题先被证明有解

构造药物设计基准有一个容易被低估的问题:如果随便给一个起始分子,再随便指定几个优化目标,很可能根本没有解。比如要求一个分子同时大幅提升溶解度、增强血脑屏障通透性、降低血浆蛋白结合、维持结合模式,还不能违反类药规则,这在某些结构空间里可能就是不可实现的组合。模型做不出来时,我们也很难判断它是能力不足,还是题目本身无解。

SMDD-Bench 的核心方法是 带见证分子的任务生成。简单说,研究者在生成任务时,会同时构造或找到一个隐藏的可行答案。这个隐藏答案就是见证分子。它不会给模型看,但能证明这道题在评测规则下确实存在至少一个解。

在骨架跃迁任务中,研究者会从实验已知活性分子中寻找成对分子:两者骨架不同、Tanimoto 相似度满足要求,但在同一蛋白口袋中能共享关键相互作用指纹,并且具有较高预测结合概率。一个作为参考分子给模型,另一个作为隐藏的见证分子。

在先导优化任务中,研究者会先为某个蛋白构造一个通过类药过滤和 Boltz2 结合概率门槛的分子池,再寻找相似分子对。如果其中一个分子在若干 ADMET 或结合性质上优于另一个,同时还能满足保持不变的性质约束,就把较差者作为起点,较优者作为见证分子。任务目标和约束由这两个分子的真实预测差异推导出来。

在片段组装任务中,研究者从已知活性分子的 Boltz2 共折叠结构出发,用 BRICS 方法把分子拆成可合成意义上的片段。被采样出来的片段必须足够大、靠近蛋白、且至少与口袋有一个直接相互作用。原始完整活性分子天然成为见证分子,因此任务可解。

这套设计的价值在于,它把评测从主观打分转向可复现的计算闭环。模型失败时,研究者至少知道答案存在;模型成功时,也能通过统一的评价器验证它是否真的满足结合、性质、结构与几何约束。


评测场景:不给资料库,只给工具箱和有限实验预算

为了更接近模型自身的药物化学推理能力,SMDD-Bench 在评测时关闭了互联网访问。模型不能查论文、专利、教材或外部数据库。任务中的 PDB 编号、配体编号、UniProt ID、靶点名称等识别信息也会被隐藏或混淆,以减少记忆和检索带来的影响。

每个模型被放进一个简化的 ReAct 智能体框架里,可以使用隔离文件系统、Python 解释器和相关生物化学工具包。模型还可以调用与评价器一致的计算工具:Boltz2 用于蛋白–配体共折叠结构预测、结合概率和结合亲和力预测;ADMET-AI 用于预测 8 类 ADMET 属性;RDKit、PLIP、OpenBabel 等工具则用于化学结构处理、相互作用分析和格式转换。

真正有意思的是预算限制。每个任务中,模型只有 8 次 Boltz2 调用15 次 ADMET-AI 调用。这相当于给模型有限的模拟实验名额。它不能无限枚举分子再暴力筛选,而必须先用化学直觉、结构规则和已有反馈缩小搜索空间,再把最有希望的候选交给昂贵工具验证。

这里也要把边界说清楚。SMDD-Bench 里的 Boltz2 和 ADMET-AI 并不等于真实湿实验。论文把它们设定为基准世界里的操作性真值,就像在一个可控的虚拟实验室中测试智能体。这个选择让评测可重复、可规模化,也意味着结论首先针对 计算药物设计智能体,不能直接外推为某个分子在真实实验中一定有效。


结果一:整体最好 40.2%,三维任务仍是硬骨头

7 个前沿开源与闭源模型在 SMDD-Bench 五类任务上的成功率。整体最好成绩来自 GPT-5.4,为 40.2%;大部分成功集中在先导化合物优化任务,三维几何相关任务仍然显著困难。
7 个前沿开源与闭源模型在 SMDD-Bench 五类任务上的成功率。整体最好成绩来自 GPT-5.4,为 40.2%;大部分成功集中在先导化合物优化任务,三维几何相关任务仍然显著困难。

7 个前沿开源与闭源模型在 SMDD-Bench 五类任务上的成功率。整体最好成绩来自 GPT-5.4,为 40.2%;大部分成功集中在先导化合物优化任务,三维几何相关任务仍然显著困难。

从上表看,闭源模型整体领先。GPT-5.4 的总成功率为 40.2% ,Gemini 3.1 Pro 为 39.0% ,Claude Sonnet 4.6 为 38.0% 。开源或开放权重模型中,Kimi K2.5 Thinking 为 30.3% ,Qwen3.5 397B A17B 为 27.5% ,DeepSeek V3.2 为 24.3% ,MiniMax M2.7 为 19.3%

但总分会掩盖任务差异。先导化合物优化是模型表现最好的区域:GPT-5.4 在该任务上达到 57.6% ,Gemini 3.1 Pro 为 55.6% ,Claude Sonnet 4.6 为 53.5% 。这说明当前大模型智能体已经能在参考分子附近做一定程度的局部修改,并通过 ADMET-AI、RDKit 和 Boltz2 的反馈完成多目标筛选。

三维任务则明显吃力。相互作用热点发现中,只有 Gemini 3.1 Pro 拿到 4.0% ,其余模型为 0。骨架跃迁最高也只有 3.8% 。片段组装最高只有 1.7% 。这些数字说明,模型可以在熟悉骨架附近做局部优化,但一旦需要在蛋白口袋里建立新的空间解释,能力就迅速下降。

这和药物化学的经验并不矛盾。局部优化往往有参考分子作为锚点,模型可以围绕官能团替换、相似度、分子描述符和 ADMET 预测做迭代。骨架跃迁和片段组装则要求模型先理解三维口袋,再想象一个新骨架或连接子如何占据空间、如何避免碰撞、如何保留关键氢键或疏水接触。当前语言模型对这种 空间—化学耦合问题 的掌握还不稳定。

二维药效团识别的结果也不算高,最好为 Claude Sonnet 4.6 的 28.0% 。这类任务看似简单,只要从 10 个活性分子和 10 个非活性分子中总结规律,但真正难点在于提炼可泛化的结构模式,而不是把可见样本里的碎片照搬出来。对于药物发现来说,这个结果提醒我们:少样本结构归纳仍然是大模型的短板之一。


结果二:模型能提出不少新分子,但容易挤向同一个答案

论文还考察了分子新颖性。这里的新颖性定义很保守:如果模型提交的分子没有出现在 ChEMBL、PubChem、SureChEMBL 或 BindingDB 中,就被视为新颖。这个指标不能证明分子真正具备知识产权空间,也不能证明它一定可合成或有实验价值,但可以排除一部分简单记忆已知分子的情况。

模型提交分子的新颖性,以及在 SMDD-Bench Diversity 子集上多次运行后的成功数、唯一成功分子数、新颖成功比例和平均两两 Tanimoto 相似度。
模型提交分子的新颖性,以及在 SMDD-Bench Diversity 子集上多次运行后的成功数、唯一成功分子数、新颖成功比例和平均两两 Tanimoto 相似度。

模型提交分子的新颖性,以及在 SMDD-Bench Diversity 子集上多次运行后的成功数、唯一成功分子数、新颖成功比例和平均两两 Tanimoto 相似度。

结果显示,模型提交分子的新颖性并不低。骨架跃迁任务中,GPT-5.4 和 DeepSeek V3.2 的新颖性都达到 94.2% ;先导优化任务中,MiniMax M2.7 的新颖性最高,为 86.5% ;片段组装任务中,Gemini 3.1 Pro 最高,为 83.3% 。这说明当前模型并非只会复述数据库里的已知化合物,至少能在 SMILES 空间中组合出不少数据库未覆盖的结构。

真正的问题出现在多样性上。研究者另外构建了 SMDD-Bench Diversity,从先导优化任务中选出 20 个当前前沿模型仍能解决、但相对困难的任务。每个模型在每个任务上运行 10 次,观察它们能否给出多样且成功的方案。

Claude Sonnet 4.6 平均每个任务有 8.40 次成功,但唯一且成功的分子平均只有 3.70 个;GPT-5.4 平均成功 7.90 次,唯一成功分子只有 2.75 个,成功分子之间的平均 Tanimoto 相似度达到 0.863。这意味着模型虽然经常能做出通过评价器的分子,但多次运行容易回到相似结构附近。

药物发现中,这不是一个小问题。真实项目不会只想要一个分子,而是希望并行探索多个结构系列,为后续合成、药代、安全性、知识产权和项目风险留出空间。一个智能体如果每次都收敛到相近答案,即便成功率不错,也会降低项目组合的韧性。相反,MiniMax M2.7 虽然整体成功率不高,但在 Diversity 子集上给出了最多的唯一成功分子,平均 4.05 个,并且成功分子之间平均 Tanimoto 相似度较低,为 0.763。这提示未来评测不能只看通过率,也要看成功方案是否足够分散。


结果三:很多时候,答案曾经路过,模型没有选中

论文做了一个很有启发性的分析:模型在推理过程中会枚举很多 SMILES 候选,但最终只会把少数分子交给预言机工具调用和提交。研究者用 GPT-5.4 mini 从模型轨迹中提取所有被提到、但没有被真正验证的 SMILES,再用完整评价器检查这些候选。这样可以区分两类失败:模型从未想到可行分子,或者模型想到了可行分子却没有选它。

如果从模型推理轨迹中选择最好的已枚举分子,部分任务的恢复成功率明显提升,说明模型失败并不总是因为想不到答案,也常常因为候选选择能力不足。
如果从模型推理轨迹中选择最好的已枚举分子,部分任务的恢复成功率明显提升,说明模型失败并不总是因为想不到答案,也常常因为候选选择能力不足。

如果从模型推理轨迹中选择最好的已枚举分子,部分任务的恢复成功率明显提升,说明模型失败并不总是因为想不到答案,也常常因为候选选择能力不足。

这个实验的结果很有画面感。以骨架跃迁为例,Claude Sonnet 4.6 的原始成功率只有 3.8% ,如果从其已枚举候选中挑出最好的分子,恢复成功率可以到 32.7% ;Gemini 3.1 Pro 从 0.0% 提升到 19.2% ;GPT-5.4 从 3.8% 提升到 15.4% 。这说明在骨架跃迁任务里,模型有时已经提出了潜在可行分子,却没能判断哪个值得送去昂贵验证。

先导优化也有类似现象。MiniMax M2.7 在先导优化上的原始成功率为 27.1% ,恢复后达到 47.1% ,几乎翻倍。它不是完全没有生成能力,而是在筛选、排序和提交策略上丢了分。

片段组装则没有明显恢复。即使把轨迹中所有候选重新检查,整体提升也很小。这个结果很扎实地说明,片段组装的瓶颈更接近底层三维构象与口袋互补性理解,而不只是选择策略问题。

这组实验把大模型智能体的短板拆得更细:生成候选、理解结构、选择候选、管理预算,是不同能力。一个模型可以会想点子,却不一定会判断哪个点子最值得试;可以会局部改分子,却不一定能在三维口袋里搭起一个新的结合方案。


常见失败模式:不会把失败变成规则

论文还进一步查看了模型轨迹,总结出几个反复出现的失败模式。

第一类是 跨轮结构–活性关系总结不足。在药物化学里,一次失败不应该只被当成一个坏结果。它应该被转化为规则:某个取代基让 logP 超出范围,某类极性替换破坏了口袋内疏水作用,某个连接子角度会导致片段偏离原位。一个预算敏感的药化专家会把这些失败沉淀成下一轮设计的约束。论文观察到,模型常常没有完成这一步。它们会反复测试已经被证明不合格的结构变体,等于用有限预算重复确认同一个坏消息。

第二类是 多轮规划不连贯。有些模型在前一轮已经找到若干通过初筛的候选,但下一轮又重新生成一批分子,没有沿着已通过标准的候选继续推进。也有模型会把同一个已经测试失败的分子再次提出。这类错误看起来像细节问题,实际暴露的是智能体记忆和任务状态管理不足。

第三类是 工具调用和代码错误。SMDD-Bench 要求模型写代码、处理 SMILES、调用 Boltz2、ADMET-AI、RDKit、PLIP 等工具。模型会出现参数类型错误、缺少必要字段、MolToSmiles 转换错误、蛋白–配体相互作用分析流程错误等问题。药物设计智能体不是单纯聊天机器人,它必须稳定地操作软件栈;工具链一出错,化学推理再好也会中断。

这些失败模式让人想到真实实验室里的新人:会提出一些合理想法,也能使用工具,但还不会把每次失败都沉淀成项目知识;会做单步判断,却不一定能维护一个长流程;会查计算结果,却不总能理解结果对下一步设计意味着什么。


这项工作真正推进了什么

SMDD-Bench 的价值不只是一张排行榜。它把大模型药物设计评测从 会不会懂化学 推到了 能不能完成药设流程

它首先提供了更接近真实工作流的任务集合。二维药效团、口袋热点、骨架跃迁、先导优化、片段组装,分别覆盖了 ligand-based、structure-based、lead optimization 和 fragment-based discovery 中常见的核心动作。对智能体来说,这些任务要求的不只是语言能力,也包括代码执行、分子结构处理、三维空间判断和预算规划。

它还提供了一个重要的构题范式:带见证分子的可解任务生成。很多科学智能体评测都会遇到同样难题:任务太简单没有区分度,任务太真实又难以证明有解。SMDD-Bench 通过隐藏见证分子,在规模化和可验证之间找到了一条可操作路线。这种思路未来也可能迁移到蛋白设计、材料设计、反应条件优化等领域。

不过,这项工作也把边界摆得比较清楚。Boltz2 和 ADMET-AI 是计算预言机,真实湿实验世界更复杂。SMDD-Bench 中通过评价器的分子,不等于已经具备真实生物活性、体内暴露、安全性或可合成路线。它更像一个训练场:先看智能体能否在统一、可重复、带反馈的计算世界里学会药物化学长流程,再谈如何把同样的训练策略接到自动化实验室与真实测定数据上。


END:离药化专家还远,但问题终于被摆到桌面上

SMDD-Bench 给当前大模型智能体泼了一盆很有价值的冷水。

40.2% 的最好整体成功率说明,前沿模型已经具备一定的分子局部优化能力;但相互作用热点、骨架跃迁和片段组装的低成功率也说明,三维空间里的药物化学还没有被语言模型真正吃透。多样性实验提醒我们,能成功一次不够,真实项目需要多条结构路线。枚举与选择实验则说明,模型有时已经把答案写在草稿纸上,却没有能力认出它。

这篇论文留下的余味在这里:自主药物设计不只是让模型更会生成 SMILES,也不只是接更多工具。下一步真正要补的,是 带记忆的结构–活性关系学习、可靠的三维口袋推理、面向预算的候选选择、稳定的工具执行,以及能够持续探索多样结构空间的策略

当这些能力逐渐补齐,大模型智能体才可能从一个会给建议的化学助手,走向一个能在真实药物发现循环中承担责任的计算合作者。SMDD-Bench 没有宣布这个时代已经到来,但它把问题切得足够具体,也把差距量得足够清楚。


参考文献与资料来源

Han, Kevin, et al. "SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?." arXiv preprint arXiv:2605.21740 (2026).

https://doi.org/10.48550/arXiv.2605.21740

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 药物化学真正难的,是连续地做取舍
  • SMDD-Bench 如何把药设问题变成可评分任务
  • 关键设计:藏一枚见证分子,让每道难题先被证明有解
  • 评测场景:不给资料库,只给工具箱和有限实验预算
  • 结果一:整体最好 40.2%,三维任务仍是硬骨头
  • 结果二:模型能提出不少新分子,但容易挤向同一个答案
  • 结果三:很多时候,答案曾经路过,模型没有选中
  • 常见失败模式:不会把失败变成规则
  • 这项工作真正推进了什么
  • END:离药化专家还远,但问题终于被摆到桌面上
  • 参考文献与资料来源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档