在化学空间中小步前进

MindDance

发布于 2026-05-15 14:13:22

930

开篇速读

在药物发现中，片段并不是一个简化版的小分子药物，而是一类更小、更容易解释、也更适合结构验证的分子起点。它们通常亲和力较弱，却可能精准占据蛋白结合口袋中的关键位置。后续研究者可以围绕这个起点，通过片段增长、片段连接、片段融合等策略，逐步把一个弱结合的片段命中物推进为更接近先导化合物的分子系列。

本文讨论的主题是分子设计中的片段演化。这里的片段演化，既包括经典的基于片段的药物发现，也包括近几年 AI 分子生成中以片段为基本单元的模型设计。前者更强调实验验证、结构生物学和药物化学迭代，后者则尝试把片段表示为图节点、结构基元、生成词元或三维约束条件，从而在更大的化学空间中进行系统搜索。

在这一方向上，国内外已经有不少代表性工作。例如，中山大学药学院药物发现研究中心与广州再生医学与健康广东实验室团队在 Chemical Science 发表的 SyntaLinker，将深度条件 Transformer 用于自动片段连接；匹兹堡大学团队的 DeepFrag 利用受体-配体复合物三维结构预测适合添加的片段；2024 年发表在 NMI 的 DiffLinker，则进一步把片段连接问题放入三维等变扩散模型框架中处理。

如果用一句话概括，片段演化的意义并不在于让算法一次性生成一个完美分子，而在于把巨大的化学空间拆解为一系列更可解释、更可验证、也更接近药化实践的小步决策。

为什么药物设计要从片段开始

传统高通量筛选往往面对的是较完整的类药小分子，而基于片段的药物发现则从更小的化学单元出发。它的基本流程通常是：首先通过生物物理或结构生物学方法识别低分子量片段，这些片段通常与靶点弱结合；随后再通过结构指导的片段增长、片段连接或片段融合，将初始片段优化为更有潜力的先导化合物。常用检测手段包括核磁共振、X 射线晶体学、表面等离子体共振等。

片段之所以适合作为起点，核心原因在于它的低复杂度。一个较小的分子片段更容易进入蛋白口袋中的局部热点，也更容易让研究者判断其结合构象是否合理。经典的 Rule of Three，三规则也来自这一背景：片段通常被建议控制在分子量小于 300、cLogP 不高于 3、氢键供体和受体数量不超过 3 的范围内。不过后续文献也指出，三规则更适合作为片段库设计的经验性参考，而不是硬性标准。

从历史上看，片段方法已经不只是概念验证。过去三十年中，多个片段来源的化合物已经进入临床开发，部分已经发展为获批药物。vemurafenib、venetoclax、erdafitinib、pexidartinib、sotorasib、asciminib、capivasertib 等药物，常被列入片段来源药物或片段药物发现相关案例中。

这说明，片段方法并不是一种只停留在早期筛选阶段的技术路线。它真正的难点在于后半程：一个弱结合片段如何被可靠地推进为结构合理、性质可控、可以合成并能够形成结构-活性关系的分子系列。

片段演化究竟在演化什么

在经典基于片段的药物发现中，一个片段命中物通常还远远不能成为药物候选物。它可能只有毫摩尔级或高微摩尔级亲和力，分子性质也只是一个早期起点。因此，后续优化的关键不是简单扩大分子，而是围绕已有结构证据进行有方向的分子改造。

片段命中物推进通常被放在设计-合成-测试循环中理解。设计阶段提出能够改善相互作用、理化性质和结构-活性关系的信息；合成阶段将设计转化为可测试化合物，并考虑可行性和可扩展性；测试阶段通过实验读数反过来修正后续设计。

从这个角度看，片段演化并不是单一算法或单一药化操作，而是一个连续的决策过程。研究者需要反复回答几个问题：原始片段的结合构象是否可信？是否存在明确的生长方向？新增基团是否真正进入了邻近口袋？连接臂是否破坏了两个片段原本的空间关系？生成分子是否能够通过合理路线合成？

这些问题共同决定了片段演化能否从纸面设计进入实验推进。

三类经典操作：增长、连接与融合

1. 片段增长：沿着结构证据向外延展

片段增长是最常见的一类片段优化策略。它从一个已经确认结合的片段出发，沿着蛋白口袋中尚未被占据的方向逐步添加基团或片段。这个方向在英文文献中常被称为出向量。

片段增长的优点在于逻辑清晰。只要初始片段的结合构象可靠，研究者就可以围绕该构象设计一组同系物，观察新增结构是否带来亲和力、选择性或理化性质的改善。它的局限也很明显：如果初始结合构象判断错误，后续增长很可能会沿着错误方向展开。

DeepFrag 是这一任务上的代表性计算方法。该模型由 Harrison Green、David R. Koes 和 Jacob D. Durrant 等人提出，利用受体-配体复合物结构预测适合添加到已知配体上的片段。论文报告称，在一个删除已知片段的独立测试中，DeepFrag 能够在超过 6500 个候选片段中约 58% 的情况下找回正确片段；即便没有直接找回，模型给出的高排名片段也常常与正确片段具有化学相似性。

这一结果更适合被理解为候选空间压缩，而不是片段增长问题已经被完全解决。模型的价值在于帮助研究者把原本庞大的片段选择问题转化为更小规模、更可解释的排序问题。

2. 片段连接：让两个弱结合点在三维空间中相遇

片段连接是把两个或多个已知片段通过连接臂整合为一个分子。理论上，如果两个片段分别占据相邻口袋，并且连接后仍能保持原有结合构象，就可能获得显著的亲和力提升。

但片段连接也是经典基于片段的药物发现中较难推进的策略之一。连接臂并不是一条简单的化学桥梁，它会影响分子的构象自由度、空间应变、熵损失和结合姿态。一个在二维结构上看似合理的连接臂，放到蛋白口袋三维空间里可能并不成立。

SyntaLinker 的工作正是在这一背景下展开。该论文提出用深度条件 Transformer 从药物化学数据库中学习片段连接规律，在给定两个片段和附加限制后自动生成连接分子。

随后，片段连接逐渐从二维 SMILES 生成转向三维几何约束。DiffLinker 的工作具有代表性。它提出 E(3)-等变三维条件扩散模型，用于在三维空间中连接给定片段；模型可以处理多个片段，自动确定连接臂原子数量和连接位点，并可以纳入蛋白口袋作为条件。

这类工作反映出一个较稳妥的判断：对于片段连接而言，二维化学合法性只是基本要求，真正关键的是三维构象能否在蛋白口袋中保持合理。

3. 片段融合：把多个片段信号压缩为一个更紧凑骨架

片段融合通常发生在多个片段命中物具有相邻或部分重叠结合区域时。研究者尝试保留不同片段中对结合有贡献的药效团或骨架特征，并将其整合为一个更紧凑的分子结构。

相较于片段连接，片段融合不一定引入较长连接臂，因此在分子量和柔性控制上可能更有优势。但它对结构信息的依赖更强。只有当不同片段的结合构象足够清楚，并且存在可合理对齐或重叠的结构区域时，融合策略才更有可行性。

在计算层面，片段融合比片段增长和片段连接更难形式化。它不是简单添加一个基团，也不是在两个端点之间补全连接臂，而是要判断哪些结构特征应被保留，哪些区域可以被压缩，融合后的分子是否仍能保持原有相互作用。

近年来出现的一些统一生成框架开始尝试同时处理片段增长、连接和融合任务。这类工作说明，片段演化正在从单一操作向更综合的分子编辑策略延伸。不过，相关方法仍需要更多公开数据、结构验证和实验结果来支持其泛化能力。

片段如何定义：RECAP、BRICS 与片段词表

在片段演化中，片段本身并不是天然给定的。一个分子可以按照不同规则切分成不同片段，因此如何定义片段会直接影响后续生成和优化结果。

早期计算化学中，RECAP 和 BRICS 是两个重要方法。RECAP，即逆合成组合分析程序，由 Lewell 等人在 1998 年提出，目标是基于化学知识将分子切分为具有组合化学意义的构件。BRICS，即可逆合成意义片段断裂方法，由 Degen 等人在 2008 年提出，强调按照具有逆合成意义的化学子结构进行断裂和重组。

这些规则的价值在于，它们让片段从药化人员的直觉对象变成了可计算对象。模型可以把片段视为词表，把连接位点视为语法，把分子生成视为片段之间的组合过程。

不过，固定片段词表也会带来约束。由数据库切分得到的片段往往继承了历史药物化学空间的偏好，未必完全适用于某个特定靶点、反应平台或项目目标。

更审慎的说法是：随着结构信息、合成路线和项目背景逐渐进入建模流程，片段词表可能不再只是静态数据库切分结果，而会更多地受到靶点口袋、可购买砌块、反应类型和已有结构-活性关系的共同影响。

这并不意味着固定片段规则会被完全替代。RECAP、BRICS 这类方法的优势在于简单、稳定、可解释，仍然适合作为许多模型和工具的基础。真正需要补足的是：如何让这些规则与具体任务中的结构证据、合成约束和实验反馈更好地结合。

从进化算法到深度生成：为什么片段适合作为搜索单元

片段演化并不是 AI 分子生成出现之后才有的想法。早期计算分子设计中，研究者已经尝试将片段作为突变、交叉和选择的基本单元。

例如，GANDI 结合遗传算法和禁忌搜索，用于在已知蛋白结合位点内自动组合预对接片段和用户给定片段。FOG，即 Fragment Optimized Growth，片段优化增长，则把分子增长表述为带统计偏置的片段增长过程。这些工作表明，在药物设计问题中，片段级操作往往比逐原子操作更接近药化直觉，也更容易保持化学合理性。

深度学习方法进一步改变了片段表示方式。JT-VAE，即 junction tree variational autoencoder，连接树变分自编码器，先生成由化学子结构组成的树状骨架，再组装成完整分子图，从而在生成过程中更好地保持化学有效性。HierVAE 则使用更大的结构基元进行层级生成，使模型能够处理更复杂分子。

这类模型的共同思想是：分子生成不一定必须逐原子完成。对于药物化学而言，一个芳杂环、一个酰胺连接、一个取代苯环、一个饱和环片段，往往比单个原子更接近人类设计时真正使用的思维单位。

因此，片段级生成的优势并不只是提高分子有效率，更在于它让模型的搜索过程更容易被药化人员解释和干预。

三维结构正在成为片段演化的关键约束

二维图或 SMILES 可以表达分子连接关系，却不能完整表达蛋白口袋中的空间约束。对于片段演化而言，这一点尤其重要。片段的结合构象、出向量方向、连接臂长度、局部构象应变、口袋空间位阻，都会影响一个设计是否真正有意义。

DiffLinker 的论文明确指出，在基于片段的药物发现、骨架跃迁和 PROTAC 设计等任务中，片段几何信息对于生成有效分子十分关键。该模型把输入片段表示为三维点云，并在扩散过程中生成连接臂原子，使最终分子能够整合初始片段。论文还提到，模型具有平移、旋转、反射和原子置换等变性，并能够在蛋白口袋条件下生成结构相容的分子。

这说明，片段演化的评价不能只停留在化学结构是否有效。一个更接近真实药物发现的问题是：生成分子是否保留了原始片段的关键结合构象？新增片段是否进入了真实的亚口袋？连接臂是否引入了过大构象代价？分子在三维空间里是否仍然具有可解释的药效团相互作用？

如果这些问题没有被回答，模型生成的分子即使在二维结构上成立，也未必能在实验中形成稳定结合。

合成可达性不是后处理，而是片段演化的一部分

片段方法常被认为比逐原子生成更接近合成实践，因为片段看起来更像可购买砌块或药化中间体。但这并不意味着片段生成天然可合成。一个分子可以由合理片段组成，却仍然缺少可行反应路线。

近期综述越来越强调片段命中物推进中的合成因素。一旦片段结合被确认，研究者通常会从商业目录中寻找可购买类似物，以较低成本快速探索附近化学空间。这种策略也常被称为 SAR-by-catalogue，即通过目录化合物建立早期结构-活性关系。

Frag4Lead 是这一思路中的代表性流程。该流程从超过 10000 个候选化合物中，为 5 个片段命中物选择了 28 个后续化合物，其中 10 个通过晶体学确认，5 个通过 ITC 测得亲和力提升。这个结果说明，在片段命中物刚刚确认之后，先从可获得化合物中建立早期结构-活性关系，往往是一条务实路径。

另一类工作则尝试把合成路线直接纳入片段拓展。Syndirella 被归为合成导向的片段外延框架，目标是从片段来源骨架出发规划多步数字化合成路线，并通过基于反应物的采购、自动化合成和直接生物测试工作流，探索目录化合物之外的结构空间。

由此可以得到一个更自然的判断：对于片段演化，合成可达性不宜只作为生成后的过滤标准。更有效的做法可能是在生成和排序阶段就引入反应类型、可购买砌块、路线长度、同系物系列扩展性等信息。这样生成出来的不是单个孤立分子，而是一组更有机会进入下一轮设计-合成-测试循环的候选系列。

如何评价片段演化模型：不能只看有效率

AI 分子生成中常见的指标包括分子有效率、唯一性、新颖性、多样性、类药性和合成可及性等。MOSES 提供了一个标准化平台，用于训练和比较分子生成模型，并提供数据集和多种质量、多样性评价指标。

但对于片段演化而言，这些指标只是第一层。一个生成分子在语法上有效，并不意味着它适合当前靶点，也不意味着它可以合成，更不意味着它会在实验中改善活性。

PMO，即 实用分子优化基准，把注意力转向更接近真实项目的样本效率问题。该工作比较了 25 个分子设计算法在 23 个单目标优化任务上的表现，并指出在 10000 次 oracle 查询预算下，许多所谓先进方法未必优于前代方法；部分任务在这一设置下仍难以被现有算法有效解决。

因此，片段演化模型的评价可以分成几个层次：

化学层面：分子是否有效、唯一、新颖，基本理化性质是否合理。
结构层面：原始片段结合构象是否保留，新增结构是否占据真实口袋。
合成层面：是否存在可行路线，砌块是否可购买，是否能形成可扩展同系物系列。
实验层面：模型是否真正减少了合成和测试轮次，是否帮助建立更清晰的结构-活性关系。

这种评价框架比单纯追求高分 docking 或高生成有效率更接近药物发现现场。尤其在片段场景中，错误的结合构象、过度乐观的 docking 分数或不可合成的连接方式，都可能让一个表面漂亮的设计失去实际意义。

目前可以形成的几个判断

1，片段演化并不是一个单独的生成任务，而更接近一个结构约束下的序列决策过程。从片段命中物出发，研究者需要在增长、连接、融合、替换、骨架跃迁等操作之间做选择，每一步都受到蛋白口袋、合成路线和实验反馈的约束。

2，二维生成方法仍有价值，但在结构基础药物设计场景中，三维几何约束的重要性会更突出。DiffLinker 这类工作显示，三维等变模型能够更自然地处理片段连接中的空间关系；不过，三维模型仍然需要面对构象多样性、蛋白柔性、价键构建、合成可达性和实验验证等问题。

3，片段级表示可能会继续在 AI 药物设计中占据重要位置。原因不是片段一定比原子级生成更先进，而是片段与药化实践之间存在更强对应关系。药化人员做分子优化时，本来就常常围绕核心骨架、取代基、连接臂和药效团进行局部修改。片段级模型更容易把这种思维方式转化为可计算操作。

4，片段演化能否真正发挥价值，取决于它是否能嵌入设计-合成-测试循环。一个只输出高分分子的模型，和一个能够提出可合成同系物系列、保留关键结合构象、并帮助下一轮实验决策的系统，在真实项目中的价值差异很大。

END

片段演化表面上是在讨论分子的局部变化，实际上触及的是药物发现中一个更深的问题：如何在巨大化学空间中做出可验证的小步选择。

一个片段命中物刚出现时，往往并不显眼。它亲和力弱，结构简单，离候选药物还很远。但如果它位于正确的结合位置，指向合理的生长方向，并能被结构实验反复确认，它就可能成为一个分子系列的起点。

从这个意义上说，片段演化不是凭空创造分子，而是沿着已有证据继续推进。它把药物设计从一次性生成完整分子的想象，拉回到更接近真实研发的节奏：确认一个弱信号，理解一个结合构象，设计一组可合成类似物，再用实验结果修正下一步。

真正有价值的片段演化方法，未必是生成数量最多的方法，而是能让每一次分子改变都有依据、有路径、有验证价值的方法。片段很小，但它给分子设计提供了一种更稳健的出发方式。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-10，如有侵权请联系 cloudcommunity@tencent.com 删除

工作

本文分享自 MindDance 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度