AI多任务学习在药物设计中的应用：原理、架构与前沿挑战

DrugIntel

发布于 2026-05-20 12:48:26

830

文献来源：Allenspach S, Hiss JA & Schneider G. Neural multi-task learning in drug design. Nature Machine Intelligence, 2024, 6: 124–137. DOI：10.1038/s42256-023-00785-4 作者单位：ETH Zurich，化学与应用生物科学系

写在前面

新药研发是一项耗时漫长、成本极高的系统工程。化学空间的浩瀚（估计包含至个可合成有机分子，乃至多达个符合 Lipinski 类药五原则的分子）使得对候选药物的高通量计算筛选成为早期药物发现的核心任务。

近年来，深度学习在计算机视觉、自然语言处理、蛋白质结构预测（AlphaFold）等领域取得了突破性进展，极大地激发了研究者将其应用于药物设计的热情。多任务学习（Multi-Task Learning, MTL）作为一种能够同时利用多个相关任务信息、提升模型泛化能力的机器学习范式，近年来在计算机辅助药物设计（Computer-Assisted Drug Design, CADD）领域受到了广泛关注。

本文对发表于 Nature Machine Intelligence（2024）的综述论文进行系统梳理，重点介绍神经 MTL 模型的核心原理、架构分类、典型应用场景及当前面临的主要挑战，以期为从事相关研究的读者提供参考。

一、多任务学习的基本原理

1.1 从单任务学习到多任务学习

在传统的单任务学习（Single-Task Learning, STL）中，每个模型仅针对单一任务进行训练，任务间的信息相互独立，无法共享。当数据量有限时，STL 模型容易对特定任务的数据产生过拟合。

相比之下，MTL 允许一个模型同时学习多个任务之间的关系，通过共享参数和信息，实现跨任务的知识迁移。其核心优势体现在以下几个维度：

比较维度	单任务学习（STL）	多任务学习（MTL）
过拟合风险	较高（单任务数据有限）	较低（多任务自然正则化）
数据需求	每任务需大量数据	可从关联任务借力
模型数量	M 个任务需 M 个模型	理论上一个模型可覆盖
对新任务的泛化	需重新训练	归纳型 MTL 可零样本预测
任务相关性依赖	无依赖	高度依赖任务相关性

值得注意的是，任务的选择是 MTL 成功的关键：引入过多不相关任务反而会"干扰"模型的学习，导致负迁移（Negative Transfer），使其表现不如对应的 STL 模型。

1.2 配对输入 MTL 框架

本文的一个重要理论贡献是将 MTL 统一表述为配对输入预测问题（Pair-Input Prediction）：给定一个"实例-任务"对，模型预测二者之间的关系。

这一框架可用关系矩阵（Relation Matrix）直观呈现：行代表实例（如分子），列代表任务（如蛋白质靶标），矩阵元素为对应的关系值（如结合亲和力）。矩阵中存在大量缺失值（问号），模型的任务即为矩阵补全（Matrix Completion）或矩阵扩展（Matrix Extension）。

药物设计中的两类典型应用：

• 药物重定向（Drug Repurposing）：预测已知分子与已知蛋白质的结合亲和力 → 对实例和任务均为转导性（Transductive）预测
• 虚拟筛选（Virtual Screening）：预测新颖分子与已知或新蛋白质的结合亲和力 → 需要对实例（乃至任务）具备归纳性（Inductive）预测能力

1.3 转导性与归纳性：MTL 模型的核心分类维度

分类	实例层面	任务层面
转导性（Transductive）	仅预测训练集中已见实例	仅预测训练集中已见任务
归纳性（Inductive）	可预测训练时未见的新实例	可预测训练时未见的新任务

独热编码（One-Hot Encoding）表示的任务或实例，因缺乏内在关联信息，只能用于转导性预测。而使用结构化表征（如氨基酸序列、蛋白质图）的模型，则有潜力实现对新蛋白质（新任务）的归纳性泛化。

1.4 与相关学习范式的对比

学习范式	核心逻辑	与 MTL 的区别
迁移学习（Transfer Learning）	在任务间顺序学习知识迁移	MTL 是并发学习多任务，迁移学习是序贯的
元学习（Meta-Learning）	提取"如何快速学习新任务"的元知识	关注学习过程本身，MTL 关注任务间的共享结构
多模态学习（Multi-Modal Learning）	融合多种数据模态描述同一实体	MTL构建跨任务的共享实例表征；多模态学习构建跨模态的单任务统一表征

二、神经 MTL 模型的架构框架

作者提出了一个统一的配对输入 MTL 模型流水线，将现有神经 MTL 模型解构为四个核心模块。

[实例 i] ──→ ρ_input(i) ──→ [表征学习] ──→ ρ_latent(i) ──┐
                                                           ├──→ ρ_comb(i,t) ──→ [决策模型 Φ] ──→ ŷ
[任务 t] ──→ ρ_input(t) ──→ [表征学习] ──→ ρ_latent(t) ──┘

2.1 输入表征（Input Representations）

分子输入表征

表征类型	代表方法	特点
分子指纹	ECFP（扩展连通指纹）	基于结构特征，计算高效，不可微
描述符向量	RDKit 描述符等	融合多类物理化学描述符
字符串（SMILES）	SMILES、DeepSMILES	可作为 1D 网格处理，支持序列模型
分子图像	2D 网格（多通道）	将原子特征（如电荷、原子序数）编码为图像通道
2D 分子图	原子为顶点，化学键为边	支持 GNN 直接学习结构特征，主流趋势
3D 分子图	含空间坐标的点云或网格	编码构象信息，需结构数据

蛋白质输入表征

表征类型	描述
单氨基酸 token	序列中每个氨基酸作为独立 token
重叠/非重叠 3-gram token	将氨基酸序列分解为三联子序列
蛋白质结构域/motif	以功能域序列作为 token
3D 网格（硬/软分配）	将蛋白质结构离散化为三维体素网格
3D 图（点云/表面网格）	原子或伪原子为顶点，空间邻近建边

蛋白质-分子复合体联合表征

表征类型	代表工作
蛋白质-配体相互作用指纹（PL-IFP）	结构相互作用指纹（SIFt）、原子对计数 IFP
3D 网格（聚焦结合位点）	KDEEP、OnionNet 系列
3D 图（结合位点选择性顶点）	PotentialNet、DENVIS

2.2 表征学习（Representation Learning）

文章系统梳理了以下神经网络架构在 MTL 药物设计中的应用：

全连接神经网络（FCNN）

• 适用于向量化输入（指纹、描述符）
• 早期 MTL 工作（2014–2017）的主流架构
• 神经正切核（NTK）可在无限宽度极限下实现核回归预测

卷积神经网络（CNN）

• 1D CNN：处理 SMILES/氨基酸序列（字符串 → 特征图）
• 2D CNN：处理分子图像、蛋白质-配体 3D 网格截面
• 3D CNN：处理蛋白质-配体复合体三维体素表征

循环神经网络（RNN）

• GRU（门控循环单元）：用于分子字符串表征学习
• LSTM（长短期记忆）：用于分子和蛋白质序列

Transformer

• 构建氨基酸序列的潜在表征，捕捉长程依赖关系

图神经网络（GNN） ← 当前最受关注的表征学习范式

GNN 类型	核心机制	代表应用
图卷积网络（GCN）	对邻居顶点特征做卷积聚合	GraphDTA、GeneralizedDTA
图注意力网络（GAT）	学习邻居权重的注意力机制	AttentiveFP、Withnall et al.
图同构网络（GIN）	单射多集函数，理论上等价于 WL 图同构测试	MGraphDTA、Bao et al.
广义聚合图网络	可学习的聚合函数	DeepNC
超图卷积网络	支持超边（连接多个顶点的边）	DeepNC
多尺度图神经网络	周期性降维的多尺度特征卷积	MGraphDTA

表征学习的两种堆叠策略：

• 并行堆叠（Parallel Stacking）：多个表征学习模型共享输入，输出融合 → 可视为多模态学习
• 序列堆叠（Sequential Stacking）：前一模型的输出作为下一模型的输入

信息网络（Information Networks）：将分子或蛋白质建模为信息图的顶点，以已知蛋白质-蛋白质相互作用或化学相似性建边，用于 ADR 预测和 DDI 预测。

2.3 潜在表征的融合方法

融合方法	代表工作	特点
拼接（Concatenation）	DeepDTA、GraphDTA 等	简单有效，维度增加
内积（Inner Product）	多输出 MTL 模型	计算余弦相似度，适合对称任务
外积（Outer Product）	DAEM	捕捉特征间交叉关系
注意力机制	Tsubaki et al.、Weng et al.	蛋白质序列 token 对图表征加权
恒等映射（Identity）	蛋白质-配体复合体模型	直接使用联合表征
融合-FCNN	Jones et al.	基于 FCNN 的多表征融合

2.4 决策模型（Decision Models）

决策模型的输出类型由预测目标的数据类型决定：

• 连续关系（结合亲和力、、IC；ADME 性质；量子化学性质）→ 线性层或 FCNN 回归
• 二元关系（活性/非活性；是否具有某种副作用；结合位姿类别）→ Sigmoid + 交叉熵损失
• 基于相似度的决策（内积、余弦相似度）→ 适用于实例与任务潜在空间的对齐

此外，任务加权（Task Weighting）是 MTL 中的重要问题：Bao et al. 采用了 Kendall et al. 提出的基于不确定性的任务损失加权策略，允许模型自适应地为不同任务分配重要性权重。

三、典型实体类型与关系

在 MTL 药物设计的关系矩阵中，常见的实体类型包括：

实例（Instances）

• 分子（小分子药物/配体）
• 分子-分子对（用于药物-药物相互作用）
• 细胞系（用于表型筛选）

任务（Tasks）

• 蛋白质靶标（结合亲和力预测的核心任务）
• 副作用类别（ADR 预测）
• ADME 终点（吸收、分布、代谢、排泄）
• 药物-药物相互作用类型（DDI）
• 毒性类别、反应活性类型等

关系（Relations）

• 连续关系：、、IC、药物清除率、量子化学性质
• 二元关系：活性/非活性、是否具有某种 ADR、结合位姿正负样本

四、当前面临的核心挑战与结论

4.1 模型复杂度的选择

近年来 MTL 模型参数量指数级增长，但"模型越复杂越好"的假设值得审视。作者引用 Occam's Razor 原则指出：在预测不确定性范围内，更简单的模型往往应被优先考虑。复杂模型在需要高度平滑预测时不可或缺，但在数据量有限的场景中，过参数化带来的是噪声放大而非性能提升。

4.2 表征的选择

输入表征必须在"信息量充分"与"避免过拟合"之间取得平衡。值得关注的是：

• 在蛋白质-配体复合体 3D 图表征中，仅使用配体图或蛋白质图，在某些条件下可优于使用完整的相互作用图（Volkov et al., 2022）
• 并行堆叠多种表征（多模态学习）的有效性高度依赖具体问题场景
• 表征的选择本质上是一种归纳偏置（Inductive Bias）的体现（详见 Box 4 的认识论讨论）

4.3 归纳偏置的选择

通过将几何深度学习（Geometric Deep Learning）引入 GNN，可将平移不变性、旋转等变性等物理先验知识编码进模型结构，从而约束预测的合理性。此外，聚合操作的选择（求和 vs 均值 vs 最大值）对与分子大小相关的性质预测有显著影响。

4.4 数据与任务的质量管理

• 精心策划的数据集（信噪比最优）优于盲目堆积的大规模数据
• 未来数据采集应由主动学习（Active Learning）策略指导，以迭代获取最具信息量的样本
• 使用多个采用不同输入表征的集成模型（Ensemble），可能比单一超大模型更能有效降低噪声

4.5 数据分割策略

MTL 模型的评估需根据具体应用场景选择合适的分割方式：

分割方式	评估重点	适用场景
配体分割（Ligand Split）	对新配体的泛化能力	虚拟筛选
蛋白质分割（Protein Split）	对新蛋白质的泛化能力	孤儿靶标预测
时间分割（Temporal Split）	前瞻性预测能力	模拟真实发现流程
实例-任务联合分割	全归纳性能力	最严格评估