
大家好,今天给大家分享一篇近期发表在Angew. Chem. Int. Ed.上的研究进展,题为:Copolymer Sequence Regulation Enabled by Reactivity Ratio Fingerprints via Machine Learning。该工作的通讯作者是来自复旦大学的陈茂教授和谷宇博士。
精确的单体序列对于生物大分子功能的实现至关重要。受自然体系启发,人们越来越关注合成聚合物的序列调控,并由此开发了适用于生物医学等领域的高性能材料。然而,在工业与学术界广泛采用的共聚体系中,序列调控仍然是一项艰巨任务,尤其是在含三种及以上组分的共聚中。竞聚率作为单体自增长与交叉增长速率常数之比,对理解和调控序列结构具有核心意义。自 20 世纪 40 年代以来,Mayo–Lewis等经典方法成为了标准工具,但是这些方法不仅对转化率范围有严格要求、实验操作繁琐、反应条件敏感,且通常仅适用于二元共聚体系,在复杂共聚体系中的根本局限仍未解决。
本文作者提出了“竞聚率指纹(reactivity ratio fingerprints, rFPs)”这一新概念,将二元和三元共聚反应数据矩阵作为rFPs,并进行对transformer 模型的训练。最终实现输入任意单体组合在任意投料比与转化率下的实验结果时,模型可以瞬时预测相应的二元、三元竞聚率。作者测定了40对二元单体组合、20对三元单体组合的竞聚率验证了模型的有效性,同时分析了温度、溶剂对于竞聚率以及序列调控的重要影响。(图1)

图1. rFP辅助的竞聚率确定与序列调控。
本文机器学习方法的开发主要包括三步:1)rFPs数据库的构建; 2)transformer 模型训练;3)模型的整合与应用。 (图2)

图2. 基于机器学习的二元竞聚率确定方法示意图。
首先,作者使用动力学蒙特卡洛(kMC) 这一能够反映聚合过程分子水平随机性的计算方法,基于系统变化的反应参数(如投料比、竞聚率)生成大量标准化的转化率数据集,同时采用矩阵编码kMC数据,其中每个竞聚率集合对应一个 rFP,构建了包含一百万个 2D rFP 与一千万个 3D rFP 的数据库。随后在模型训练部分,作者发现 transformer 的多头注意力机制能够有效学习模拟转化率数据与设定竞聚率之间的映射关系,避免了传统神经网络因内存消耗过大导致的训练效率降低。 (图3)

图3. rFP模型的性能展示。
接着,作者从不同随机投料比实验中收集的转化率作为输入导入rFP 模型,模型在毫秒时间尺度内即可通过将实验数据匹配至对应的 2D 或 3D rFP 矩阵来确定竞聚率。测定结果包含置信区间,并将初始投料比与转化率的测量误差(±0.03)纳入预测过程。作者还开发了一个用户友好平台部署模型。在相同反应条件下模拟了 40 组单体对的二元竞聚率,并使用交互式弦图可视化。模型采用的转化率范围更广(0%–100%,传统方法通常 <10%),但是得到的二元竞聚率与文献中传统方法报道的高度一致。作者随后尝试将平台拓展至三元共聚体系,可以在较少的实验条件下预测完整的三元体系竞聚率。实验测试了 20 组三元体系竞聚率,包括醋酸乙烯酯(VAc)、正丁基乙烯醚(nBVE)、三氟乙基甲基丙烯酸酯(TFMA)等单体。作者发现引入第三单体或将某一单体替换为另一种,会显著改变原二元竞聚率,强调了直接预测三元体系的必要性。(图4)

图4. 实验验证rFP模型的性能。
借助此模型,可以高效收集不同条件(如温度、溶剂)下的竞聚率,为实现序列调控奠定基础。作者选择六氟丁基丙烯酸酯(HFBA)与 N,N-二甲基丙烯酰胺(DMAA),比较了二元体系不同温度时的差异。在 70 °C 下聚合获得的 P(HFBA-co-DMAA)(P1)在整个转化率范围内维持几乎恒定的组成。相比之下,25 °C 下得到的 P2 为梯度序列共聚物,其链上重复单元比例随聚合进程逐渐变化。序列差异对应的性能差异也得到 DSC 验证:P1 的玻璃化温度区间更窄,而 P2的更宽。作者进一步探索了方法在三元体系中的适用性。传统方法通常用二元竞聚率近似三元体系,但往往误差较大。作者通过模型获得三元体系竞聚率,再利用 3D rFP 生成三角图,直观呈现随进料变化的组成漂移。例如在 TFMA–St–MMA 的三元体系中,三角图中颜色更深区域表示组成更均一的区域,意味着更接近共沸条件。(图5)

图5. 序列调控共聚物的合成。
综上,作者开发了一种高效预测二元/三元共聚反应竞聚率的机器学习策略。基于 rFP 的机器学习框架为理解多组分共聚行为与实现序列调控提供了更简单、高效且实用的途径。仅需少量实验数据即可得到竞聚率,显著降低成本;泛化性强;能系统分析温度、溶剂等条件对序列的影响,支持三元共沸探索;为非专家提供了便捷工具,尤其适用于复杂多元体系。尽管完全机理解析仍是准确性的黄金标准,但随着算法与数据质量的提升,ML 方法的精度有望进一步提高。
作者:ZXY 审校:ZHR
DOI: 10.1002/anie.202513086
Link: https://doi.org/10.1002/anie.202513086