Nature | 基于稀疏数据的可迁移对映选择性预测模型

DrugAI

发布于 2026-03-03 17:27:12

240

DRUGONE

在不对称催化研究中，如何预测反应的对映选择性一直是核心挑战之一。传统方法通常依赖大量实验数据进行建模，但在真实化学研究中，可获得的数据往往高度稀缺，导致模型难以推广到新的底物、催化剂或反应体系。研究人员提出了一种能够从稀疏数据中学习并实现跨体系迁移的对映选择性建模策略，通过将物理有意义的分子表示与机器学习方法相结合，使模型能够在极少实验样本条件下准确预测新的不对称反应结果。该方法展示了在多个反应家族之间的可迁移性，为利用小数据驱动催化发现提供了一条可行路径。

对映选择性的精准控制是现代合成化学的重要目标，尤其在药物分子构建中，不同对映体往往表现出完全不同的生物活性。然而，对映选择性来源于复杂的立体电子相互作用，其影响因素包括催化剂结构、底物构型、非共价相互作用以及反应环境等多重因素，使得经验规则难以普适适用。虽然机器学习近年来被用于预测选择性，但大多数模型需要密集实验数据进行训练，并且通常局限于单一反应体系，一旦条件变化便难以泛化。因此，建立能够在“小数据”条件下仍具预测能力、并可迁移至新体系的模型，是推动数据驱动不对称催化的重要问题。

稀疏数据驱动的建模策略

研究人员提出将化学知识嵌入模型构建过程，而非完全依赖数据规模。通过设计能够反映立体效应与电子效应的分子描述符，模型可以在有限样本中捕捉决定对映选择性的关键物理因素。与传统黑箱学习不同，这种方法强调使用可解释的特征空间，使模型在训练数据极少的情况下仍能建立稳定的结构–选择性关联，从而避免对大规模实验数据的依赖。

图1：稀疏数据条件下的对映选择性建模概念框架。

跨反应体系的可迁移学习

在模型训练完成后，研究人员将其应用于不同但相关的反应体系，以测试其迁移能力。结果表明，模型不仅能够重现训练体系中的选择性趋势，还能在未见过的新底物和催化剂组合中保持良好预测性能。这说明模型学习到的是更一般性的立体控制规律，而非简单的数据拟合。通过这种方式，小规模实验数据即可支持对更广泛化学空间的探索。